2017-05-26 21:14

柯洁弃子认输，人机大战第二盘究竟发生了什么？

写暴走欧洲的系列文，写了一半，实在忍不住回过头来写围棋。今天这个题图，我特意从棋魂动漫的视频中，找到这一幕截出来的。

第二盘棋，柯洁中盘认负，盘面上大龙横死，如果仅从结局来看，似乎没有第一盘，1/4子小负听上去那么好。

但实际上，这盘棋的质量和精彩，超出很多人的想象，而我今天要说的是，这是alphago与人类的所有对局里，棋谱最完美的一份。

alphago最早是15年底，alphago V13版本，在未公开的情况下，与退居二线旅居欧洲的职业棋手樊麾老师进行了测试性的对局，五盘不记录成绩的对局里，alphago三胜两负，（实际上樊老师赢了两次alphago，不过是V13的版本，那个版本的实力尚不足以挑战人类顶级高手），五盘记录成绩的对局里，alphago 五胜零负。

这十盘棋谱，实际上质量都不高，樊老师当时压力也很大，毕竟作为第一个输给AI的职业棋手，情绪上出现波动是很难控制的。职业棋手当时基于此棋谱做出判断，认为AI面对李世石不堪一击，并非是盲目自信，但樊老师直到半年后，才有机会证明真的并非是自己的问题。

然而职业棋手完全低估了AI自我进化的能力，2016年的alphago V18版本，已经拥有碾压完爆V13版本的实力，据说是可以让V13差不多3个子的水平。与李世石的五盘棋的结果大家都知道了，四胜一负，但这五盘棋谱，从质量上来说，也难堪完美，重压下的李世石多处技术变形，与其巅峰状态相比其实还是有所差距；而alphago也存在多处被职业棋手诟病的处理方式，而第4局更是被李世石一个实质上不成立的妙手打爆。

实际上，当时AI即便存在应对错误，局面仍然很难说就已经胜负已分。但alphago当时已经出现了严重误判，连续走出重大问题手，导致局面完全不可收拾，最后棋力不错的黄博士代替AI强行认输，以免在棋谱上留下更加难堪的一幕。

所以，基于如上，柯洁才发出了，“能赢李世石，不能赢我”的豪言。而一些IT从业者当时已经神话AI，误以为其棋力已经迈入巅峰，无以伦比，并对职业棋手做出的判断不屑一顾，其实这也是另一种的傲慢与偏见。

最后打脸这些IT从业者的，恰恰是alphago自己，2016年底alphago V25版本化名master卷土重来，在网络上横扫人类顶尖棋手60盘。2017年与柯洁对战的这个版本，功力又有提升，按照deepind公司他们自己最近官方公开的信息，这个版本和去年战胜李世石的V18版本相比，可以让前者3个子。

换句话说，去年那个版本，在今天的alphago眼里，千疮百孔，不堪一击，李世石所发现的问题和缺陷，绝不是侥幸和偶然的。而当时直播中所有做即时点评的嘉宾职业棋手里，只有柯洁的形势判断是一直是最准确的，有一定棋力的棋迷想必都还有印象。（我上篇文章是的，柯洁输了，然而又怎样。提到这个版本远胜于去年版本，但当时官方还没有提到3个子的领先优势，官方的声明和数据印证了棋界之前的判断，也凸显了王思聪的无理。）

那么，樊老师10盘，李世石5盘，master横扫60盘，外加柯洁1/4子负的第一盘，截止到昨天为止，一共76盘公开的棋谱，我告诉你们，其实每一个棋谱里， AI都下的不够完美，当然，这些不完美，有少部分是它依旧不够完善，有很多是它认为这样下足够赢了。

除了保持优势“稳如狗”的退让策略，已经被广泛理解之外。职业棋手对AI棋谱最大的诟病是AI会轻易的滥用先手，将变化走尽。从人类学围棋的经验来说，保留变化（专业术语是保留味道）是非常重要的，在后续的对弈中，根据不同的进程会有不同的选择，而且特别是针对打劫的时候，根据劫争的大小，先手是可以有选择的用来作为劫财使用。

但AI专家说，走尽变化是算法剪枝，减少搜索树的分支，减少后续的计算量。在过去的70多盘人机对弈里，AI频频出现这样的场景，但很遗憾的是，由于其局面掌控能力过于强大，人类完全无法对这样的行为作出有效的反制。

那么问题来了，第一，保留变化是否是人类对围棋一厢情愿的理解？第二，AI是否会在劫争紧张的时候出现这样的问题？

所幸这一盘，柯洁的表现，迫使AI作出了答案。

这一盘柯洁的意图非常明显，（其实上一盘也很明显，先捞后洗，简单说就是先拿住能确定的空，再去破坏对手的成空潜力。）打乱棋形，通过乱战寻求机会。而这一战，柯洁成功的将棋局带入了自己的意图。（上一战，AI在实地和外势平衡方面，展现了强大的局面控制力，成功的破坏了柯洁的意图，早早形势就进入了AI的掌控）

经常看到柯洁在一块棋尚未安定的时候，又强硬的开出一块新战场，形成双方各有几块棋不活的彼此绞杀局面（最多时双方各有五块孤棋，这属于极为罕见的乱战形势），可以说很早就进入了悬崖边的战斗，任何一方，只要一着不慎，就会万劫不复。

尽管在二十多手的时候，AI就连续走出了让职业棋手赞叹不绝的定型妙手，但柯洁的顽强让AI一直没有借此真正建立优势，直到一百手棋的时候，双方依然纠缠不清，局势难判，根据deepmind老板在twitter的表达，在此时，AI并没有认为自己占有优势，这是这个版本之前所有对局中，都没有出现过的。柯洁逼出了AI的极限。（以上是基于alphago的自我形势判断数据，而非棋界人士的经验，更不是无凭无据的恭维）。

柯洁其实在七十多手棋的时候，已经在左下角设计了一个巨大的劫争，却引而不发，继续将局面搞乱，又在右下角试图再度挑起一个劫争，然而此时，alphago并没有让柯洁如愿，我不负责的猜测一下，一些其他的围棋AI程序，在连环劫上判断经常出严重问题，所以柯洁大约是希望将棋引入这样的局面，甚至有可能考虑过去设计一个三劫循环，但很显然，alphago不会让人类如此轻而易举的达成目标。

但关键的事情出现了，从柯洁引导alphago进入他所设计的劫争，并引而不发之后，几十手棋的进程里，我们注意到一个事实，alphago一直在保留变化，一直选择引而不发，没有剪枝，没有滥用任何先手权力，没有做任何浪费劫财的事情。

这证明了两件事情，第一，保留变化是有价值的，人类对此的经验积累没有问题。只是绝大部分情况下，alphago认为无需保留变化也足够赢棋。第二，alphago完全理解劫财的价值和保留，但打劫会导致胜率的不可控，所以在非必要的情况下，它会主动规避打劫。

只有柯洁的实力展现，才让人有机会看到alphago被逼交出的答案。

然而很可惜，在胶着的局势下，alphago第119手使出了一步妙手，这步棋如果没有职业棋手讲解，我根本看不出来好在哪里。这步棋走出来后，柯洁两片孤棋已经难两全。

但尽管局势转向不利，劫争尚在，胜负仍然存在悬念。可惜的是，千算万算，劫财居然不如对手。是的，正如上面文章所提，在柯洁引入复杂劫争的局面后，alphago本盘罕见的没有浪费一个劫财，并一直有意或无意的保持着对柯洁的劫财优势。

在劫争引爆后，136手被一些职业棋手批评为败招，因为劫财明显偏小，alphago断然消劫后胜负已分，然而，我更愿意理解为，这是在劫财不足的情况下，柯洁对ai实施的一项骗招，此时AI尚有若干劫财没有使用，柯洁保留了更大的劫财，而试图用这个较小的劫财引导AI形成误判应劫，一旦AI应劫，柯洁将凭空多出一个劫财，成功将局势引导到自己掌控的一边，但显然这个策略并未生效。 alphago的逻辑简单清晰，基于劫财的价值不足，显然消劫后胜率过高。

部分职业棋手认为，当时应该继续扩大局面的复杂性，对AI的整片棋进行更大范围的攻击和缠绕，让棋盘整体陷入更大的死活计算中，我作为业余棋手，没有能力发表这方面的判断，但从实战而言，deepmind官方的表态已经证明了柯洁的状态和能力，很多关键地方的处理与AI自己的最优选择完全一致，而直到中盘AI自己的数据判断，依然是形势混沌胶着不分。最后确实棋差一招，但也已经足够体现了人类的尊严。

alphago消劫后，寥寥数手柯洁即示意认输，其实虽然一条龙横死看上去比较悲壮，但左上alphago也付出了巨大的代价，双方的差距也并不是特别巨大，如果对手是人类，棋盘上依然有可战的空间。

不过，此时乱战已经结束，而 alphago将毫无疑问的进入“稳如狗”的境界，继续下去，是的，我们可以预料alphago不断退让，柯洁不断占一点官子便宜，差距越来越小，但很抱歉，对手不会给你任何翻盘的机会。与其这样获得一个大杀小败的外行看上去相对体面的结果，不如就这样结束，保留一张没有缺陷的棋谱给后人。

这就是我说的，在过去的76张alphago与人类的对局谱里，这是alphago最完美的一张棋谱，没有退让，没有剪枝，没有无棋自补，每一手棋都极具效率，恰到好处，因为只有遇到这样的对手，alphago才会有这样的答卷。

是的，去年李世石让alphago交出了一份不及格的答卷，李世石的棋力和天才自然不容置疑，但别忘了，今年这个版本，棋力让去年的三个子。

机器学习在快速的成长，但我们很多人似乎没意识到，机器学习的成就，也带动着人类的学习和进步，如果alphago把系统的决策数据完全开放出来，人类在棋道探索上的进步还会前进一大截，这件事情也是围棋界一直在极力要求并渴望的事情。然而很遗憾，到目前为止，这一块还只能停留在很有限的范围内进行交流。

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

AI创投日报

频道：前沿科技