正确的提示信息

扫码打开虎嗅APP

从思考到创造
打开APP
搜索历史
删除
完成
全部删除
热搜词
2021-09-07 09:55

极大极小原理,教会了我们什么?

本文来自微信公众号:孤独大脑(ID:lonelybrain),作者:老喻在加,原文标题:《极大极小原理》,题图来自:《心灵捕手》



在“假设发生如下事情”之前,祝福我们此生永不发生这类事情。


假设你外出时,遭遇绑架,该怎么办?


有一位(国外的)自卫专家,给出了三个应对原则:


1. 不要跟他去第二个地点。


如果你心怀侥幸,他可能将你带到偏僻的地方,为所欲为,甚至下毒手,然后掩藏他的罪恶痕迹。


2. 记住,他在撒谎。


不管坏人说多好听,别相信。


这位专家的观点是:


从一开始,每个谋杀犯,绑架犯,强奸犯,他们都会用同一句话:“照我说的做,我就不会伤害你。”


然而,一旦你照他们说的做,最后受伤最深的,还是你。


3. 要在原地,用尽一切手段与之搏斗。


这一点似乎有点儿让人疑惑,万一受伤呢?


被人用刀抵住,拼命挣扎要是不幸丢了命,岂非不识时务?


然而,这位专家的洞见是:


如果他们想在原地杀你,你早就已经死了。


所以:


  • 他们不想在原地杀你,他们希望带你去其他地方,或者先干点别的事。

  • 通过打乱他们的计划,你会成为他们最恐怖的噩梦。

  • 如果他们不想被抓,不想把事搞得太麻烦,他们可能就会直接逃跑了。


以上三点原则的所有原因,其实只有一个:如果你进了他的车,或者跟着他们去了某个地方,你死定了。(以上经验仅供参考,不构成本文作者对遇到绑架的具体建议。)



以上是一个生动的博弈场景。


由此引出我的一句“大脑碎片”:好的一手棋,是其令对手有不好的下一手,以及自己有好的下下一手棋。


我们姑且不讨论,在第1节里,专家应对绑架的三点原则的适用范围,以及如何根据情境调整策略。


本文的焦点是:极大极小原理。


绑架,是一场零和博弈。


就像下棋,一个人赢,一个人输,即使和棋,也只是暂时的平静。双方没有合作的可能。


对于这类博弈,冯·诺依曼提出了“极小极大原理”。


《囚徒的困境》一书,用我们熟悉的分蛋糕来示例。众所周知,公平的分法是:一个人切,一个人选。


假如两个孩子都不是孔融,并且都想吃更多蛋糕,这其实是一个典型的零和博弈。


  • 第一个孩子(切蛋糕那个)的两个策略是:不均分和尽可能均分。

  • 第二个孩子(挑蛋糕那个)也有两个策略:选较大的那一块或选较小的那一块。


如下图(请注意,表格里的4个结果,都是指切蛋糕的孩子的所得收益)



切蛋糕的孩子貌似掌握了主动权,但他决策的关键点,取决于“然后呢”,即对手的下一步会怎么做。


显然,挑蛋糕的孩子,会追求让自己的蛋糕最大化,也就是让对手的蛋糕最小化。


对应上面的表格,挑蛋糕的孩子总是会选左边一列,从而导致切蛋糕的得到左边一列的两个较小蛋糕的结果。


于是切蛋糕的孩子要做的事情,就是:让挑蛋糕的孩子将要留给他的量小的那半块蛋糕极大化。


因此,切蛋糕的孩子只能选择尽量均分蛋糕,以保证获得差不多的半块蛋糕。


这个量,是行中极小值的极大值,被称为“极大极小”。


也许有人会说,这么简单的道理,为什么要说这么啰嗦?


德谟克利特早在公元前300-400年前,就创立了“原子论”,认为每一种事物都是由原子所组成的。


然而,这只是一种想法。


对比而言,爱因斯坦对原子的理解,才算是科学。


二者之间的区别在于:后者可实验,可计算,可运用。


作为博弈论的创始人,冯·诺依曼说过:没有极小极大定理,就没有博弈论。


《囚徒的困境》一书对极小极大定理总结道:


  • 在两个利益完全相反的人之间出现的有精确定义的冲突,总存在一种理性的解;

  • 所谓理性的解,就是在给定冲突性质的前提下,双方都确信他们不可能期望有更好的结果了。



让我们回到绑架现场。


即使被绑架者非常被动,但这仍然是一场博弈。


要理解这一点,我们需要强调三个名词:


1. 回合;


2. 节点;


3. 选择权。


回合


许多事情,都是连续决策的结果。


而零和博弈,是敌我双方轮流决策,由一个一个的回合叠加起来。


节点


上述每个回合,你都有一个属于自己的决策节点。


然而,很多人要么忽视了节点,要么放弃了节点。


选择权


在每个回合的决策节点,你其实是在做一个选择。


你有选择权,对手也有选择权。


敌我双方都试图让自己的选择收益最大化,让对方的收益最小化。


当你被绑架的时候,对手已经出招,现在轮到你走棋了。


(再次强调,本文不构成对绑架情境的具体实战建议。)


你仍然有选择权:


1. 放弃抵抗,上对方的车;


2. 大声呼救,拼命反抗。


这个时候,大多数人会想,我抵抗的话,会有什么后果:


  • 会受伤吗?

  • 会激怒对方导致生命危险吗?


然而,从博弈思维来看,你仅仅纠结于当下的一步棋去想,毫无意义。


你应该去想:我如果这样做,对手会如何回应呢?再然后我又该如何应对他的回应呢?


也就是说:你要计算下一步,以及下下一步。然后后,再由此倒推,你现在这一步该如何做选择。


我将本文开头那个专家描述下的场景图示如下:



如果“你”乖乖上了绑匪的车,如上图左分支(选择1)所示,可能导致如下结果:


1. 在第四个回合,你已经失去了选择权;


2. 对手可以自由选择让自己利益最大化的做法;


3. 绑架的许多目的是为了钱财,有些歹徒会先撕票再要钱;


4. 未经核实的数据是,撕票比例高达10%;


5. 据某地警方的经验,越是熟人绑架,撕票的可能性越高。


所以,处在第二回合的“我”,要考虑的是,第三回合的对手会怎么做,以及自己会有怎样的第四回合。


《囚徒的困境》引用了卡尔维诺在《寒冬夜行人》一书中的一句话:“你知道,你所能期盼的最好结果就是避免最坏情况。”


这句话,很好地说明了极小极大原理。


还记得本文开头专家的第二条建议吗?


记住,他在撒谎。


从一开始,每个谋杀犯,绑架犯,强奸犯,他们都会用同一句话:“照我说的做,我就不会伤害你。”


可是,如果罪犯真的不会伤害你,那么你反抗的时候他也不会伤害你。而且,即使起初罪犯没有太想伤害你,但是当你失去选择权的时候,他可能会萌发伤害的念头。


回到博弈思维:游戏者决不会从他的最佳策略上偏离到对自己造成威胁的策略上去。尤其是在零和博弈中,对你有利,对绑匪就不利。


请看上面的图,在第三回合,绑匪会极力让你的收益最小化。


所以,你在第二回合要做的,是“极大化”这些自己可选的“极小值”,尤其是要避免最坏结果。


同时,你要“极小化”对手可选的有利于他的“极大值”。


由此倒推,你就会发现,如专家所言,在第二个回合,你应该做的是:


要在原地,用尽一切手段与之搏斗。



仅仅明白道理并不够,我们需要定理。


为什么需要定理?因为定理可以形成算法。


冯·诺伊曼对极小极大值定理的证明是复杂的,“它以一种读者难以理解的方式结合了基本概念和拓扑概念”。


约20年后,香农利用 Minimax(极小化极大)算法,提出了解决国际象棋问题的设想。


随后,在AI攻克国际象棋和围棋的过程中,Minimax(极小化极大)算法扮演着基础而重要的角色。


极小化极大算法(Minimax)可被概括为:


  • 对于两个玩家的对抗游戏,其中任何一个玩家的决策会依赖于另外一个玩家之前的决策,且另外一个玩家总是竭尽所能地想要获得胜利。

  • 因此,一方会在所有选项中选择令其自身优势最大的一个,而另一方则会选择令对手优势最小的一个。

  • 通过穷举不同玩家之间的策略,该算法可以构建一棵搜索树,并通过穷举不同的可能,选择其中能得到最佳结果的路径。



请看下图右边的搜索树的最下面一行,3、12、8这一样数字,是“我”期望获得的可能的利益。



对于对手而言,当然会选择让“我”利益最小的走法,所以,在MIN那一行的B节点,对手会选择3、12、8中的最小值3。


同理,在C节点,对手选最小的2;在D节点,选最小的2。


而在MAX行,“我”要选择“3、2、2”这一行极小值当中的极大值“3”。


这就是Minimax(极小化极大)算法。


但是,即使是对于棋类这种完美博弈,该算法的计算复杂度会呈指数级增长。


因此往往需要引入剪枝策略来简化搜索的复杂度。以及,通过多次采样的蒙特卡洛树搜索,以减少计算量。



再往后, UCT 算法将蒙特卡洛树搜索方法与UCB公式结合,有效解决了围棋上的问题。


进而,基于深度强化学习, AlphaGo诞生,惊人地击败了人类,完成了以往被认为还需要20-50年才能实现的任务。


德谟克利特对原子的理解令人赞叹,然而只有基于爱因斯坦的公式,人类才能造出原子弹,以及安全地利用核能。



极大极小原理,给我以下七点启发:


启发一:站在对方的角度想问题,然后倒推自己的策略


我们可以广义地来想找个问题,即使不是在零和博弈的环境下。


例如说起某某产品经理很厉害,可以瞬间将自己变成小白,其实就是能彻底地站在对方的角度。


几乎所有厉害的商业公司,核心原则就是“经营顾客”。先想着让顾客价值最大化,然后再从中找寻让自己最大化的策略。


所以芒格说:要诉诸利益,而不是讲道理。


我有时候也会和小伙伴们在一线谈业务。我不是很好的销售,口才也很一般,但每次谈合作效果还不错。


我的方法是:


  • 请问你现在最想要的是什么?

  • 我们可以如何帮助你实现你最想要的?

  • 我们立即可以做的最小化合作是什么?


启发二:不占别人便宜,自己的也要据理力争,不当烂好人


段永平早年经营企业,既不占供应商的便宜,也不给批发商赊货。


不管多好的买家,必须现款现货。


何谓烂好人?就是彻底放弃自己的选择权,试图讨好对方,感动对方。


然而,人性是经不起考验的。所以,很多时候,烂好人不仅招恶人,甚至催生恶人。


启发三:将对手想成一个势均力敌的对手


以我下围棋为例,切忌低估对手。


所谓低估对手,就是对他人抱有幻想。


例如,你发现一手棋,能够让自己的利益最大化。但是如果被对手识破,那么结果就会很糟糕。


有时候,棋手会心存侥幸:要是他看不到,那我就赚了。


然而,这是不对的。


你就该假设对方是一个势均力敌的对手,你能看到,对手也能看到。


当然,如果下让子棋的时候,要适当调整。


以及,在德州扑克等博弈中,或是像剪刀石头布这类首尾相连的游戏,也需要虚张声势。


总之:


  • 别欺负别人,别想着占便宜;

  • 也别因为暂时领先而得意忘形,别耍过头。


启发四:将街上的每个司机都当作潜在凶手


这个想法似乎有些极端,几乎没司机有动机要撞你。但是,理论上,每个司机都有撞你的“可能性”。


对你而言,这个最坏的结果可能性很小,后果很严重。


这正是极大极小原理的灵魂:“你知道,你所能期盼的最好结果就是避免最坏情况。”


启发五:珍惜每一个选择权,并为你的下一个、下下个选择权做好铺垫


人生是一连串决策的总和。


所谓全局观,是指你的每个决策点既是相对独立的,又和过去和未来相关联。


有些人只管当下舒服,而不顾自己的下一手该如何。


如果你在一个球队里,队友总是给你传烂球,或者不给你传球,你一定会骂他烂人。


可是在现实中,现在的“你”,可能经常不顾及未来的“你”,不管未来的“你”是否有好的选择权。


一连串有算法的选择权,就是一个人的“人生算法”。


启发六:所谓仁慈的狮子,是指你要当好人,但保留惩罚坏蛋的权利


如题,这一条启发,反过来也是适用的。


例如,你彻底放弃惩罚对方的权利,以换取对方彻底的信任。


前提是你相信对方是一个珍惜荣誉的人。


启发七:彻底远离损人不利已的人


博弈论的假设是:双方都是理性的。


博弈论只研究对赢感兴趣的、有完善的逻辑思维能力的游戏者参与的博弈。只有你相信你的对手(一个或几个)既是理性的,又是希望赢的,而你自己在玩的时候也始终憋着一股劲儿,要力争为自己取得最好的结果,这样的博弈才是博弈论分析的对象。


对博弈论而言,自私的人并不可怕,可怕的是不理性的人。


为什么呢?


  • 一个自私的人可能做损人利己的事,一个合作的人可能做利人利己的事情。

  • 但是,一个不理性的人可能做损人不利己的事情。

  • 博弈论很强大,但是如果你是在和一个非理性的人“交手”,就很难得出一个解答。


你的最佳选择是:


远离这类人。


举例说吧,经济较发达区域的特点之一是:民众只算自己的帐,而不去算别人赚多赚少。


倘若不如此,就会出现如下局面:我才赚十块,你居然赚一千块,我宁可牺牲自己的十块毁掉你的一千块。


这就是损人不利已。


如此一来,博弈论的均衡就无法出现。因为非对弈情况下的“损人不利己”,也就是理性的失去,会摧毁整个游戏。


(当然,经济是否发达有多方面因素,不发达地区也经常有“只算自己帐”的传统。)


记得中学时有个同学的哥哥当年混社会,他说他们那群20岁上下的青年谁都不怕,最怕十四、五岁的孩子,因为这类混小子可能毫无目的不顾后果地冲上来给他们一刀。


博弈论因为这类人而失效。本文开篇对于绑架者的分析,也是假设他们是理性的。但是,如果绑架者不是理性的人呢?那么,不理性的凶手可能会不顾受害人呼救招来人,在没有利益的情况下毒手。


最后


归根结底,一切在乎“对的人”。


不管是零和博弈,还是双赢博弈,你都要努力令对方是一个理性的人。既要选择对的队友,更要选择对的对手。


关于极大极小原理,我们还可以将其智慧拓展为:


狭路相逢勇者胜,勇者相逢智者胜,智者相逢德者胜,德者相逢道者胜。


最后,祝福你我此生一早避开,不必在狭路上遭遇那些损人不利己的混蛋。


本文来自微信公众号:孤独大脑(ID:lonelybrain),作者:老喻在加

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
打开虎嗅APP,查看全文
频道:

支持一下

赞赏

0人已赞赏

大 家 都 在 看

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: