围棋“狗咬狗”会发生什么？首先毁了人类“三观”

智能设备 2017-05-31 09:31:15 转载来源: IThome

感谢站搜网网友 Sville 的投稿人机大战第二季，AlphaGo闲庭信步地把柯洁打哭，在完成暴击人类的重任后，deepmind团队宣布AlphaGo作为一名竞技棋手生涯已经终结。从此机器与人类的战斗，已经像骑自行车与骑摩托车比拼速度，毫无意义

感谢站搜网网友 Sville 的投稿

人机大战第二季，AlphaGo闲庭信步地把柯洁打哭，在完成暴击人类的重任后，deepmind团队宣布AlphaGo作为一名竞技棋手生涯已经终结。从此机器与人类的战斗，已经像骑自行车与骑摩托车比拼速度，毫无意义。但很多人都在疑惑：如此独孤求败的AlphaGo如果自己与自己杀上一盘，会是怎样的局面？现在，这个问题终于有答案了，这几天deepmind团队放出的50局AlphaGo自战棋谱，就告诉了大家，“狗咬狗”到底会发生什么？

“白狗”与“黑狗”的恶战

Alphago自从诞生以来，主要通过自我对弈左右互搏不断提升水平。和李世石对战的版本已经自我对弈了超过3000万盘，而和柯洁对战的版本恐怕早已左右互搏了上亿盘。此番公布的50盘AlphaGo自战都是慢棋，1-2分钟一步，应该说实力上和与柯洁对战的版本相同，所以很具有代表性。

“狗咬狗”会发生什么？可以肯定的是，其结局不是以拔电源告终，而是同样互有输赢，输棋的一方也并不是先死机的那个，在很大程度上是决定于手里棋子的颜色。在AlphaGo的50局自战中，执白的一方——俗称“白狗”赢了38盘，胜率接近80%，相当惊人。在人机大战第二局中，柯洁执白曾经把局势导入到很混乱的局面，他自称一度看到了机会，在发布会上，他主动申请第三局执白，希望能够复制第二盘的格局，因为传闻AlphaGo执白棋的胜率会到55%。

但其实这终究不是一个概率学问题，AlphaGo自战中“白狗”胜率惊人也并非因为运气好，而是涉及到中国围棋规则中的贴子（指先手一方补偿给后手一方，确保黑白开局时局面均衡的保障），在人类高手看来，黑贴3又3/4子对黑棋来说负担有点重，导致黑棋的行棋趋向于激烈化。如今看来，AlphaGo的自战对局也证实了这一点，而且表现出来的差距远比人类对局明显，根据大量职业比赛的实战结果统计，中国规则下人类职业棋手黑棋的胜率大概在47%。在棋力已入化境的AlphaGo看来“黑狗”胜率太低，所以或许中国规则中关于贴子的规定该有所改变了。

“狗咬狗”中人类被毁掉的“三观”

AlphaGo的50局自战棋谱，对于职业棋手来说，可是珍贵的“武功秘籍”，如同当年王重阳走后留下的一部九阴真经。但是这本秘籍却让人大跌眼镜，“三观”尽毁，因为如果按照AlphaGo的套路，这么多年的围棋可能真的是白学了，要不就是学了个假围棋。

首先是“套路观” 。众所周知，下围棋是有是定式的，有套路的。AlphaGo的套路是什么？就是没套路。在这50盘对局中，AlphaGo几乎没有摆完一个人类常见的定式，要么是开了个定式的头，但走两步就脱先（各走各路，你走一步我不理，我走一步你当看不见）了，等什么时候想起来再看情况再出招，要么是直接忽略人类定式大全下出全新下法——可见人类围棋史上总结的各类定式，绝大多数AlphaGo都是不认同的，这也说明了定式其实是人类围棋的“过拟合”——为了得到一致假设而使假设变得过度严格。

其次是 “ 战斗观 ” 。如果你懂棋，那么AlphaGo自战棋谱恐怕会让你不敢直视，如果你不懂棋，那么设想一下，“狗咬狗”的画面是黄药师大战欧阳锋，而“狗咬人”则是黄药师戏耍柯镇恶。如果人类高手对局的对抗激励程度是10，AlphaGo自我对弈的激烈程度起码是100。全局性攻杀，大规模转换，反复的劫争在狗狗的自战谱中比比皆是，这样看和人类棋手对弈时求稳的假象只是巨大优势下简明取胜的策略而已，就像老虎和狮子争霸那一定是打得天翻地覆，老虎跟人打随便挠两下就结束战斗了。所以像柯洁与AlphaGo第二盘那样的全局混战在人类眼中可能是非常复杂激烈，人类会有机会，但在AlphaGo看来其实都是小把式。

再有是“目标观”。 AlphaGo是实现“小目标”的坚定执行者，尽管厮杀过程极其惨烈，但大部分情况下，激战结束双方各自收兵轻点棋盘上的累累尸骨划定疆域，就会发现其实双方的差距也就是半目或者一目半而已。50局自战谱如果正常收完官子有约一半会以半目胜负收尾，可见AlphaGo掌控局势的能力。而且在细微局面下AlphaGo的官子也不会出现和人类对弈时那种不断退让的情况。----比如本次人机大战第一局，AlphaGo在开局领先后稳稳收兵最终只赢了1/4子，可以简单理解为AlphaGo并不在乎赢多少，只在乎赢没赢，它会在任一局面下寻找当前胜率最高的一点，而且AlphaGo这种胜率就像GDP制约达康书记一样牵着AlphaGo，它的每一个选点都是当前局面胜率最高的一点（它自己认为的），所以才会经常出现在一个局部走了几步突然就不走了，脱先到另外一个地方走几步，然后又回来了之类的前后不连贯的情况。

自相残杀后留下“打狗秘籍”?

既然拿到了“武功秘籍”，勤加修炼是必然，但能“以其人之道还治其人之身”吗？说得深一点，能实现人类围棋的大跃进吗？

人类围棋的知识体系和AlphaGo完全不同，一个是由局部到全局的整合，一个是直接基于全局胜率选择每一步棋的最佳选点。由于存在这样根本性的差异，人类很难真正学会AlphaGo布局阶段那些匪夷所思的脱先、打破定式的下法。再有，AlphaGo中后盘在激战中的计算深度，远远超过人类大脑所能达到的限度——可以简单粗暴的理解为“狗”在复杂战斗中能把未来100步棋的最优解找出来，而人类远远不能。

但“秘籍”不是废纸，人类围棋发展的套路，就是每次都是出现一个天才，大幅度拓展大家的思路，让围棋发展到一个顶峰，然后出现了“过拟合”，大家的棋都局限在一个地方，直到下一个天才出现再次打破常规。以往这个角色是道策、秀策、吴清源，而如今，可能就是穿越千年而来，提前告诉我们1000年后的围棋该如何下的AlphaGo。

标签: 围棋狗咬狗发生什么首先毁了人类三观