|
|
《博弈论》阅读 9~警察与小偷博弈
原创 知晓归途 知晓归途 2025 年 11 月 26 日 12:06 北京
01 警察与小偷模式:混合策略
在一个小镇上,只有一名警察负责巡逻,保卫小镇居民的人身和财产安全。这个小镇分为 A 、B 两个区,在 A 区有一家酒馆,在 B 区有一家仓库。与此同时,这个镇上还住着一个以偷为生的惯犯,他的目标就是 A 区的酒馆和 B 区的仓库。因为只有一个警察,所以他每次只能选择 A 、B 两个区中的一个去巡逻。而小偷正是抓住了这一点,每次也只到一个地方去偷窃。
我们假设 A 区的酒馆有 2 万元的财产,而 B 区的仓库只有 1 万元的财产。如果警察去了 A 区进行巡逻,而小偷去了 B 区行窃,那么 B 区仓库价值 1 万元的财产将归小偷所有;如果警察在 A 区巡逻,而小偷也去 A 区行窃那么小偷将会被巡逻的警察逮捕。同样道理,如果警察去 B 区巡逻,而小偷去 A 区行窃,那么 A 区酒馆的 2 万元财产将被装进小偷的腰包,而警察在 B 区巡逻,小偷同时也去 B 区行窃,那么小偷同样会被警察逮捕。
在这种情况下,警察应该采取哪一种巡逻方式才能使镇上的财产损失最小呢?如果按照以前的办法,只能有一个唯一的策略作为选择,那么最好的做法自然是警察去 A 区巡逻。因为这样做可以确保酒馆 2 万元财产的安全。
但是,这又带来另外一个问题:如果小偷去 B 区,那么他一定能够成功偷走仓库里价值 1 万元的财产。这种做法对于警察来说是最优的策略吗?会不会有一种更好的策略呢?
让我们设想一下,如果警察在 A 、B 中的某一个区巡逻,那么小偷也正好去了警察所在的那个区,那么小偷的偷盗计划将无法得逞,而 A 、B 两个区的财产都能得到保护,那么警察的收益就是 3(酒馆和仓库的财产共计 3 万元),而小偷的收益则为 0 ,我们把它们计为 (3, 0) 。
如果警察在 A 区巡逻,而小偷去了 B 区偷窃,那么警察就能保住 A 区酒馆的 2 万元,而小偷将会成功偷走 B 区仓库的 1 万元,我们把此时警察与小偷之间的收益计为 (2, 1) 。
如果警察去 B 区巡逻,而小偷去 A 区偷窃,那么警察能够保住 B 区仓库的 1 万元,却让小偷偷走了 A 区酒馆的 2 万元。这时我们把他们的收益计为 (1, 2) 。
这个时候,警察的最佳选择是用抽签的方法来决定巡逻的区域。这是因为 A 区酒馆的财产价值是 2 万元,而 B 区仓库的财产价值是 1 万元,也就是说,A 区酒馆的价值是 B 区仓库价值的 2 倍,所以警察应该用 2 个签代表 A 区,用 1 个签代表 B 区。如果抽到代表 A 区的签,无论是哪一个,他就去 A 区巡逻,而如果抽到代表 B 区的签,那他就去 B 区巡逻。这样,警察去 A 区巡逻的概率就为 2/3 ,去 B 区巡逻的概率为 1/3 ,这种概率的大小取决于巡逻地区财产的价值。
对小偷而言,最优的选择也是用抽签的办法选择去 A 区偷盗还是去 B 区偷盗,与警察的选择不同,当他抽到去 A 区的两个签时,他需要去 B 区偷盗,而抽到去 B 区的签时,他就应该去 A 区偷盗。这样,小偷去 A 区偷盗的概率为 1/3 ,去 B 区偷盗的概率为 2/3 。
下面让我们来用公式证明对警察和小偷来说,这是他们的最优选择。
当警察去 A 区巡逻时,小偷去 A 区偷盗的概率为 1/3 ,去 B 区偷盗的概率为 2/3 ,因此,警察去 A 区巡逻的期望得益为 7/3(1/3×3+2/3×2=7/3)万元。
当警察去 B 区巡逻时,小偷去 A 区偷盗的概率同样为 1/3 ,去 B 区偷盗的概率为 2/3 ,因此,警察此时的期望得益为 7/3(1/3×1+2/3×3=7/3)万元。
由此可以计算出,警察总的期望得益为 7/3(2/3×7/3+1/3×7/3=7/3)万元。
由此我们得知,警察的期望得益是 7/3 万元,与得 2 万元收益的只巡逻 A 区的策略相比,明显得到了改进。同样道理,我们也可以通过计算得出,小偷采取混合策略的总的期望得益为 2/3 万元,比得 1 万元收益的只偷盗 B 区的策略要好,因为这样做他会更加安全。
通过警察与小偷博弈可以看到,并不是所有博弈都有优势策略,无论这个博弈的参与者是两个人还是多个人。在博弈中,参与者并不是一成不变的,他可以根据具体情况改变他的策略,使得他的策略的选择满足一定的概率。
当博弈中一方所得是另一方所失的时候,也就是在零和博弈的状态下,才有混合策略均衡。无论对于博弈中的哪一方,要想得到纯策略的占优策略都是不可能的。
纯策略是参与者一次性选取,并且一直坚持的策略;而混合策略则不同,它是参与者在各种可供选择的策略中随机选择的。
02 混合策略不是瞎出牌
“最小最大定理”:最大最小定理指出,在二人零和博弈中,参与者的利益严格相反(一人所得等于另一人所失),每个参与者尽量使对手的最大收益最小化,而他的对手则努力使自己的最小收益最大化。
在警察与小偷博弈中,如果从警察和小偷的不同角度计算最佳混合策略,那么得到的结果将是,他们有同样的成功概率。换句话说就是,警察如果采取自己的最佳混合策略,就能成功地限制小偷,使小偷的成功概率与他采用自己的最佳混合策略所能达到的成功概率相同。他们这样做的结果是,最大收益的最小值(最小最大收益)与最小收益的最大值(最大最小收益)完全相等。双方改善自己的收益成为空谈,因此这些策略使得这个博弈达到一个均衡。
在所有混合策略中,每个参与者并不在意自己的任何具体策略,这是所有混合策略的均衡所具有的一个共同点。如果你采取混合策略,就会给对手一种感觉,让他觉得他的任何策略都无法影响你的下一步行动。这听上去好似天方夜谭,其实并不是那样。
因为它正好与零和博弈的随机化动机不谋而合,既要觉察到对方任何有规律的行为,采取相应的行动制约他,同时也要坚持自己的最佳混合策略,避免一切有可能让对方占便宜的模式。如果你的对手确实倾向于采取某一种特别的行动,那只说明,他们选择的策略是最糟糕的一种。
所以说,无论采取随机策略,还是采取混合策略,与毫无策略地“瞎出”不能画等号,因为随机策略与混合策略都有很强的策略性。但有一点需要特别注意,一定要运用偶然性提防别人发现你的有规则行为,从而使你陷入被动之中。
混合策略要求人们以随机的方式选择自己的行动,由于随机性的行为无法准确预期,就需要人们正确认识混合策略。
比如,网球比赛,发球的重要性使得球手们对自己的策略更加重视。如果一个发球采取自己的均衡策略,以 40:60 的比例选择攻击对方的正手和反手,接球者的成功率为 48% 。如果发球者不采取这个比例,而是采取其他比例,那么对手的成功率就会有所提升。
比如说,有一个球员把所有球都发向对手的实力较差的反手,对手因为意识到了发球的这种规律,就会对此做出防范,那么他的成功率就会增加到 60% 。这只是一种假设,在现实中,如果比赛双方两个人经常在一起打球,对对方的习惯和球路都非常熟悉,那么接球者在比赛中就能够提前作出判断,采取相应的行动。
但是,这种方法并非任何时候都能奏效,因为发球者可能是一个更加优秀的策略家,他会给接球者制造一种假象,让接球者误以为已经彻底了解了发球者的意图,为了获得比赛的胜利而放弃自己的均衡混合策略。如此一来,接球者必然会上当受骗。也就是说,在接球者眼里很傻的发球者的混合策略,可能只是引诱接球者的一个充满危险的陷阱。因此,对于接球者来说,为了避免这一危险,必须采取自己的均衡混合策略才可以。
和正确的混合比例一样,随机性也同样重要。假如发球者向对手的反手发 6 个球,然后转向对方的正手发出 4 个球,接着又向反手发 6 个,再向正手发 4 个,这样循环下去便能够达到正确的混合比例。但是,发球者的这种行为具有一定的规律性,如果接球者足够聪明的话,那他很快就能发现这个规律。他根据这个规律做出相应的调整,那么成功率就必然会上升。所以说,发球者如果想要取得最好的效果,那么他必须做到每一次发球都让对手琢磨不透。
由此可以看出,如果能够发现博弈中的某个参与者打算采取一种行动方针,而这种行动方针并非其均衡随机混合策略,那么另一个参与者就可以利用这一点占到便宜。
03 随机策略的应用
随机策略就是概率问题。概率里有一个重要的概念,也就是事件的独立性概念。这就像抛硬币一样。如果硬币抛了 10 次正面都没有出现,是不是下一次抛出正面的可能性会增加呢?影响硬币正反面的决定性因素有很多,包括硬币的质地和抛的手劲,如果除去这些影响因素,那么第十一次抛出硬币出现正面概率仍然和抛出反面的概率相等。
其实有很多东西是非人类的智力所能及的,与其靠主观猜测作出决断,让主观猜测影响我们的决策,还不如干脆采取纯策略的方式。
比如:“服兵役”制度的博弈效果。很多国家都实行“服兵役”制度,也就是国家每年都征召达到法定年龄的青年入伍。
这种策略在与一群对手进行谈判的场合有着很好的用处。它成功的关键在于,当随机进行惩罚时,每个人都有被惩罚的可能性,所以会选择不合作的策略进行殊死搏斗。但是当惩罚有一种明确的联动机制以后,情况就会有所转变。除非有一种情况出现,就是当你面对的是一群非理性的对手时,当然这不在讨论的范围之内。除了这种情况,这样的威胁一般都会达到你的目的。
知晓归途 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?注册
x
评分
-
查看全部评分
|