AlphaGo 与李世石 alphago第四局的第四局比赛中有哪些值得关注之处

本题已收录至知乎圆桌 >> ,更多关于李世乭对战人工智能的解读欢迎关注讨论。-----第五局比赛,李世石九段惜败 AlphaGo。相关问题:>> >>
晚上把第五局比赛又复了盘,还是写两句棋盘上的内容几个大牛都已经分析过了,这里也就不班门弄斧了只想说,Alpha go的棋确实自成一派,很精彩,看着相当过瘾今天的比赛,赛前已经没有那个很强的希望谁胜的心态了所以有点卖弄似的发了句世界杯时个个都是球迷这两天人人都懂围棋这并不是一个贬义的句子今天本来是想去看《疯狂动物城》的结果是为了看这个棋,没有去看这两天围棋的魅力超过了美国大片这五番棋的意义,也就在于此吧所以今天看这棋时能够抛开了胜负心看着李世石失利也没有第三局时感受的那种悲壮相信这5局棋是他人生的一个最宝贵财富反观我自己心态一路走来,从第二局希望阿狗赢,第三局看着李被屠的心痛,到第四局支持李,再到第五局平淡的看双方对战(第一局确实没有关注)又何尝不是人生的一段很有意思的体验呢?我不知道,柯狗的大战时我能否还能象这次一样的激动————————原文世界杯时个个都是球迷这两天人人都懂围棋————————二更感觉又要跪期待被打脸写在这一手的时候
&p&五盘结束了,不知道有没有出乎大家的预料。&/p&&br&&br&这五盘棋进行的时间是我不断学习提高的过程,新事物的强烈冲击果然是人学习的重要动力来源。可能很多棋迷也像我一样很久很久没有动机从头到尾仔仔细细研究过一盘棋了。&br&&img src=&/dad642cf5e6c7dc969cbba31e50652a1_b.png& data-rawwidth=&323& data-rawheight=&110& class=&content_image& width=&323&&&br&
(如图,大战樊麾,李九段以后Alphago的等级分已经打到世界第二了,啧啧 )&br&&br&这次对抗真是阴谋论横行,已经到了见缝插针的地步。&i&阴谋论什么时候都有,历史上很多事比阴谋论里写的还要黑暗的多,但是没有证据没有独立分析拿出脑残的阴谋论去忽悠别人,忽悠自己就是非常不理智的行为了。世界上各种事情其中背后原因的可能性实在太多,如果都做有罪推定,生活就太累了。)&/i&&br&&br&四盘讲完以后还有很多人问,棋牌上人工智能赢了不是很正常么,&u&为什么要和举重机比力气、和计算器比算数、和人工智能比数据分析呢?&/u&&br&&br&因为现在的计算机其实和人类一样,完全&b&没有办法穷尽围棋里复杂的变化&/b&。人学围棋的方法是大量的积累棋谱库和锻炼计算力,比赛的时候根据经验计算,在一定情绪氛围内,用逻辑进行判断之后做出决策。&br&&br&&p&Alphago是什么样呢,他的本质是大量的随机落子总结哪些胜率高,然后把局部特征总结出来备用最后与估值网络的判断结合分别评分之后落子。&/p&&br&就这次比赛而言,就如我之前反复说的,&b&看点就是足够强大的硬件在依靠胜率分析而没有逻辑判断的系统和人的逻辑判断为主的系统优劣如何&/b&。&br&从这五局的结果来看,缺乏逻辑支持会有一些愚蠢低级的失误,不过总体的表现还是非常棒的。&br&这五局比赛对于李九段来说,压力显然非比寻常,这五盘作为人类一方的代表,被关注的程度和比赛的意义超过了作为任何一国的主将参加任何一次世界大赛。全程的关注程度爆表不说,还有摄像头无时无刻的近距离追踪拍摄,在这种情况下李世石九段顽强拼搏的斗魂精神如同璀璨的星辰,闪烁在棋坛穹顶之上。&br&&img src=&/299a609a4cc71bf101efc43e_b.png& data-rawheight=&229& data-rawwidth=&352& class=&content_image& width=&352&&(Alphago已经拿到韩国棋院名誉九段称号,韩国棋院这招好快好厉害)&br&【对棋手想法的影响】&br&这次比赛完以后,很多棋手表示看到了围棋更迷人的地方,不论如何,在围棋技术上,Alphago带来了更为广阔清晰地思路,提供了更好的训练方法和判断参考。相信Google在围棋上的探索只是小小一方面,这次比赛给人工智能赚足了眼球,期待Google之后的大招。&br&——————————————————————————————————————————&br&&b&下面还是重点讲讲棋局&/b&,感觉这盘棋李九段已经基本回到正常状态,最后一盘已经很放得开,走的十分精彩。对于棋迷来讲,Alphago经营全局的水平很高,像是打太极,从不起杀心,走得非常均衡。&b&&u&看点在于控制与均衡。&/u&&/b&&br&&b&【序盘】&/b&&br&&img src=&/cdaea920d5eb9ee700c0e_b.png& data-rawheight=&329& data-rawwidth=&329& class=&content_image& width=&329&&
(紧跟时尚潮流的开局)&br&&p&之前的开局,Alphago喜欢使用一些古老的套路或者自创的招法,这盘棋难得的使用了比较新的流行变化,碰一个感觉很有活力。第一次看到Alphago支持流行变化。&/p&&img src=&/568fde56df7f0b6f90eaf9aa9b4495df_b.png& data-rawheight=&377& data-rawwidth=&375& class=&content_image& width=&375&&&br&
(序盘战发端)&br&进行到这里是第一个分歧,如果退是平稳的下法,如果点或者夹击则进入战斗。&br&&br&这里李九段稍作犹豫,马上点入,这里是石头典型风格。进行到下图一番折冲之后,白棋转身,黑棋右下实地很大,稍可满意。&br&&img src=&/6c6b39a67ea39f8f8775590fbe9f96ba_b.png& data-rawheight=&381& data-rawwidth=&380& class=&content_image& width=&380&&&br&&p& 左边黑棋简明定型之后,白棋立刻回到争夺中央话语权的部署上来,思路很清楚。&/p&&img src=&/c27f8ab7cc9f761ad2a74c05d0de358c_b.png& data-rawheight=&388& data-rawwidth=&392& class=&content_image& width=&392&&&br&Alphago这步棋,利用右下气紧,而石头反其道而行之,冲一个,感觉非常有意思。实战的结果来看,局部李九段获利很大,这种局部计算Alphago还是有问题。不过从之后的运转来看,损失确实也十分有限。&br&【alphago的计算失误】&br&&img src=&/faaa99a3a16339afe51c65_b.png& data-rawheight=&351& data-rawwidth=&354& class=&content_image& width=&354&&&br&&br&初学的棋友要注意了,实战Alphago被迫给大家演示了一下被著名手筋大头鬼吃掉是什么样子。这一代Alphago的失误大大出乎我的意料,不过这个亏损毕竟全都出在黑棋领地之内,白棋损失没有视觉上看起来这么大。&br&【中盘】&br&&img src=&/31489bf1dcd2dbb5e4787_b.png& data-rawheight=&326& data-rawwidth=&328& class=&content_image& width=&328&&&br&&p&最近几盘Alphago总会走肩冲,李九段使出斗转星移,以彼之道还施彼身。&/p&&br&可惜被白棋反镇一个,这局部最后落了下风。&br&&img src=&/a5bf8f081ead79bc347fb6796d29cba1_b.png& data-rawheight=&362& data-rawwidth=&357& class=&content_image& width=&357&&这步棋其实棋迷们气合的时候肯定都常用,不过运转之后的变化的能力就差远了。Alphago的走法柔和细腻,推手太极一般把自己处理的非常好:&br&&img src=&/c6a57dbf1_b.png& data-rawheight=&358& data-rawwidth=&359& class=&content_image& width=&359&&&br&&br&进行到这里,黑棋上面只活了三目,所得甚少,相比之下右上白棋模样有近五十目的潜力,白花花一片,这种控制全局的能力,还是Alphago强大。&br&&img src=&/690fed3ecc21c6734bce5bb_b.png& data-rawheight=&377& data-rawwidth=&379& class=&content_image& width=&379&&&br&&br&这步托很有争议,局后很多意见仍然倾向于走简单的点三三。实战结果一二路混合爬过,影响到了中央的厚薄,感觉并不好。期待更多专业意见。&br&【收官最后的转换】&br&&img src=&/9ed2b5e8ec51b8ac956f7b56f62a0190_b.png& data-rawheight=&365& data-rawwidth=&364& class=&content_image& width=&364&&&br&&br&这盘进行到收官,已经是Alphago比较好下的局面,Alphago又是大量的134这样的送吃的棋,不损目数但很损劫财,感觉很奇怪。&br&&img src=&/fe9da6e37ec7794ef45eee_b.png& data-rawheight=&348& data-rawwidth=&347& class=&content_image& width=&347&&&br&&br&收官时最后的转换,按照陈耀烨九段的说法,最后结果可能黑棋稍亏。之后黑棋官子稍有所得,但是微细的差距中Alphago最后没有给李九段机会。,&br&&img src=&/afedb11cde71cd0ca3123_b.png& data-rawheight=&353& data-rawwidth=&348& class=&content_image& width=&348&&
(打劫稍重,黑棋未必好)&br&贴一张终局图,按一般收束下完输两目半。&br&&img src=&/04766aaddd45b_b.png& data-rawheight=&317& data-rawwidth=&315& class=&content_image& width=&315&&(最后李世石微小差距落败,人机大战五盘棋中白棋赢了四盘,真有意思)&br&【小结】&br&这一盘双方都出错了,相比之下,Alphago明显的错误反而更多一些,很多时候我们都是这样,赢了开心庆祝,总结胜招;输了反躬自省,各种不对都来了。实在说,人与人对抗是比赛,人和机器对抗是测试为主了。&br&很多人说找到Alphago的bug就可以让他接连走出荒唐的招法,从而致胜,私以为从取胜的角度来讲有价值,对于棋艺本身不是什么好的做法。&br&&p&对人的成长来说,胜利的甜头固然重要,不过在人工智能迅猛发展大的趋势面前,用长远的视角去分析去看自己该站的位置更为重要。即使这次李世石九段赢了,总有一天我们会败在不断完善的算法上,对于围棋界来说这一天可能来的比预想的早太多太多,但对于国际象棋等等棋类,二十年前就在思考这样的问题了。&/p&&br&胜固欣然,败亦可喜。有些思考的价值始终超越于胜负之上,超越于变化本身,神经网络几十年前就有,到如今才初得大成。很多人喜欢簇拥在鲜花簇拥,富丽堂皇的场所之中追随潮流和一个又一个热点。越是这样飞速发展,不断变化的时代,越需要宁静致远,清晰冷静的大局观,不论是在棋盘上还是在人生中。&br&&img src=&/93a6b227f0b186ba4a2e0ca_b.jpg& data-rawheight=&512& data-rawwidth=&958& class=&origin_image zh-lightbox-thumb& width=&958& data-original=&/93a6b227f0b186ba4a2e0ca_r.jpg&&
(报告!Google带着一大波分门别类的Alpha狗 正在袭来!求哪只最萌!)
五盘结束了,不知道有没有出乎大家的预料。 这五盘棋进行的时间是我不断学习提高的过程,新事物的强烈冲击果然是人学习的重要动力来源。可能很多棋迷也像我一样很久很久没有动机从头到尾仔仔细细研究过一盘棋了。 (如图,大战樊麾,李九段以后Alphago的等…
本文是AlphaGo与李世石人机大战结束之后的终结思考,全文较长,没时间的朋友可以直接看加粗部分。&br&&br&比赛结束了,AlphaGo4:1战胜李世石,这同样是人类的胜利。鉴于韩国棋院授予AlphaGo荣誉九段称号,因此我将称呼它为&b&『阿狗九段』&/b&。因为我并不懂围棋,所以主要从一名工程师看人工智能的角度予以分析。&br&&br&&img src=&/98bdafd236db2cf74ad9_b.png& data-rawwidth=&352& data-rawheight=&229& class=&content_image& width=&352&&&br&&b&本文分为以下几个部分:&/b&&br&&b&1 总结与疑问?&/b&&br&&b&2 如何进一步提升阿狗棋力的思考?&/b&&br&&b&3 超越围棋,人工智能的发展与启示&/b&&br&&b&4 赛后感悟&/b&&br&&b&5 工程师造人&/b&&br&&br&&br&&b&1 总结与疑问?&/b&&br&&br&比赛已经结束,阿狗九段完胜李世石九段。我的心情很奇特,比赛前,多数人不看好阿狗九段,我倒是充满信心,有信心计算机能赢人类顶尖高手至少一局。比赛跌宕起伏,过程令人唏嘘,在观看直播的过程中,我又慢慢站到了李九段这边,真心希望他能赢下至少一局。本次比赛极大的唤起了我对围棋的好奇心,相信很多正在阅读此文的朋友也是一样。&br&&br&第一局李九段应该是没有使出全力,也是想试探一下阿狗,没想到被打了伏击战;第2局李九段好好下了,但是压力似乎太大,失误或者是胆略不足而输棋;第3局李九段真是拼尽全力,可以阿狗表现实在太好,整场比赛让我们人类观者有一种深深的无力感,按规则李九段已经输掉整场比赛;第4局李九段卸下包袱,为荣誉而战,打出神之一手,逼迫阿狗出现巨大的失误,终于拿下宝贵的一局,其中的战局变化过程值得我们在很长一段时间内反复推敲分析;第5局李九段出现一些失误,惜败。&br&&br&&b&整个比赛过程,我认为总体来说李世石表现的正常,巨大压力之下虽然没有发挥出最高水平,但这5局,就是一个正常人类棋手的正常表现。而阿狗,则大大出乎多数人的意料,展示出非常好的大局观,反倒是官子的能力似乎并没有意料中那么强,但是这位阿狗九段偶尔又会犯很低级的错误,真不知该如何评价。&/b&&br&&br&阿狗九段的能力如此之强,我们已经不再关心它如何赢,更重要的是它为什么输?这样今后才可能战胜它。对此,我在第2局、第4局之后都写了文章,分析了阿狗的原理和失败的原因:&br&&a href=&/question//answer/& class=&internal&&如何评价第二局比赛 AlphaGo 又一次战胜李世石? - 张拯宁的回答&/a&&br&&a href=&/question//answer/& class=&internal&&如何看待人机大战第四局李世乭战胜 AlphaGo? - 张拯宁的回答&/a&&br&整个比赛结束后,自己又继续深入思考,并且借鉴了很多朋友的讨论,概况成下述的分析。&br&&br&&b&2 如何进一步提升阿狗棋力的思考?&/b&&br&&br&首先,我忽略到技术细节,按照Google在Nature发表的论文,将阿狗的原理换成下面的示意图:&br&&br&&img src=&/d7eb3b8ffe2def58e18276d_b.png& data-rawwidth=&693& data-rawheight=&517& class=&origin_image zh-lightbox-thumb& width=&693& data-original=&/d7eb3b8ffe2def58e18276d_r.png&&&br&具体来讲,&b&AlphaGo 总的设计思路是将深度神经网络与蒙特卡洛树状搜索相结合。为了全文的完整性,我讲之前回答里关于阿狗原理的概述引用在这里,方便阅读。&/b&&br&&blockquote&&b&1)阿狗使用了两个神经网络:&/b&&br&&ul&&li&&b&第一个叫做走棋网络(Policy Network),&/b&它的作用是在给定当前局面情况下,判断下一步可以在哪里走子。训练走棋网络其实就是向人类学习的过程,通过学习了一个网络对战平台KGS的三万个人类对局,得到在输入一个盘面s(状态state)时,如果采取行动a(action)时,人类落子的概率分布&img src=&///equation?tex=p_%7B%5Csigma+%7D%28a%7Cs%29& alt=&p_{\sigma }(a|s)& eeimg=&1&&。请看下图,最上面的绿色棋盘就是走棋网络的输出,&b&深绿色的柱状图表示对人类下一步可能落子点的概率分布情况。有了这个走棋网络我认为主要是让AlphaGo对棋面局部的分析处理能力比较强。&/b&&/li&&/ul&&img src=&/5c687ce837be95bf23c63d4e1ee33995_b.png& data-rawwidth=&178& data-rawheight=&326& class=&content_image& width=&178&&&br&&ul&&li&&b&第二个是估值网络(Value Network)&/b&,它用于在给定当前局面s情况下,估计是白胜还是黑胜的概率&img src=&///equation?tex=v_%7B%5Ctheta+%7D& alt=&v_{\theta }& eeimg=&1&&;Google使用一种自我强化学习的方法,通俗的说就是左右互博,让阿狗自己和自己不断的下棋,通过左右互搏获得海量对局训练出来,并且每个对局只用一个样本,从而保证随机性和避免过拟合。&b&我认为就是这个估值网络给了AlphaGo下棋时具有所谓『大局观』的能力。&/b&&/li&&/ul&&img src=&/e00e1cddd45be48a53b35436_b.png& data-rawwidth=&188& data-rawheight=&342& class=&content_image& width=&188&&&br&&p&(AlphaGo使用的神经网络结构示意图,来自Google论文)&/p&&br&&b&2)此外,还有一个称为『快速走子』的关键模块,设计它虽然看似是工程性的目的,但对于阿狗的性能和能否实战其实非常重要。&/b&快速走子(Fast rollout)模块用,传统的局部特征匹配(local pattern matching)加线性回归(logisticregression)的方法训练,在适当牺牲走棋质量的条件下,使得走子速度要比走棋网络快1000倍。这样做的好处一是可以在走棋网络没有返回时(主要使用GPU)让CPU不闲着,先搜索起来,等到网络返回更好的着法后,再更新对应的着法信息,所以可以更好的利用硬件资源。其次是用来评估盘面,通过模拟走子,从当前盘面一路走到底,不考虑岔路地算出胜负,然后把胜负值作为当前盘面价值的一个估计,用统计的方法就可以取得很好的效果。&p&&b&3)最后,就是蒙特卡罗树搜索&/b&(Monte Carlo Tree Search,MCTS),通过MCTS把上述两个神经网络和快速走子连接成一个完整的系统。蒙特卡洛搜索树(Monte-Carlo Tree Search)是利用计算机强大的计算能力,通过简单的『傻算』,但是快速搜索所有的可能路径,然后通过统计对比,找到当前的最佳选择。但是围棋的状态空间太大,路径太深,直接傻算,估计就是算到宇宙末日也搞不定所有可能。具体到AlphaGo,走棋网络的输出给出了当前可能的落子选择,然后用估值网络评估,砍掉大量不值得深入考虑的分岔树,交给MCTS处理,从而大大提高计算效率。MCTS包括4个步骤,先选择一个叶子节点(Selection);然后扩展一个节点(Expansion);向下仿真棋局结果(Simulation);最后向后回溯,得到反馈。&/p&&img src=&/950c9ae0a1f2f1edb0baf73a83a38b52_b.png& data-rawwidth=&606& data-rawheight=&261& class=&origin_image zh-lightbox-thumb& width=&606& data-original=&/950c9ae0a1f2f1edb0baf73a83a38b52_r.png&&&br&&br&下图给出了使用蒙特卡罗树搜索时,AlphaGo如何看待一个棋局的决策过程:&br&&img src=&/31f9a5aee95f542a57ab2db3c8518fca_b.png& data-rawwidth=&1608& data-rawheight=&1068& class=&origin_image zh-lightbox-thumb& width=&1608& data-original=&/31f9a5aee95f542a57ab2db3c8518fca_r.png&&&br&&b&5)在这个过程中,两个神经网络,或者我们类比为两个大脑在不断的协同。其中一个大脑判断当前局面可能的走法,另一个用蒙特卡洛方法进行尝试走下去(仿真),判断不同走法的优劣,也给出对于下一步棋最佳走法的建议。这两个大脑的建议被加权后,做出最终的决定。论文中给出的这个加权的公式是:&/b&&br&&img src=&/02e446b29742cee641eef_b.png& data-rawwidth=&508& data-rawheight=&82& class=&origin_image zh-lightbox-thumb& width=&508& data-original=&/02e446b29742cee641eef_r.png&&公式(1)&/blockquote&&br&这样,阿狗九段下棋的具体过程如下图所示:&br&&br&&img src=&/41fbe1f9e0a168bb3f3b_b.png& data-rawwidth=&1089& data-rawheight=&1049& class=&origin_image zh-lightbox-thumb& width=&1089& data-original=&/41fbe1f9e0a168bb3f3b_r.png&&&br&&br&&br&&br&当李九段下出这白第78手之后,阿狗出现了一系列的错误。&br&&img src=&/f20daeecb3b_b.png& data-rawwidth=&500& data-rawheight=&500& class=&origin_image zh-lightbox-thumb& width=&500& data-original=&/f20daeecb3b_r.png&&&br&全部比赛之后,仔细分析原因,阿狗输棋的具体技术原因应该是下述两个可能的方向:&br&&b&1)阿狗的程序设计中存在bug,当人类的走棋超出了阿狗的原来搜索范围,将搜索树清空,时间管理模块存在缺陷。我猜想DeepMind的工程师可能用:&i&T&/i&&i&=&/i&(全盘剩余时间/当前手已搜索深度*广度)这样一个参数来评估当前的走子用时的综合情况。如果发现这个值太小了,就不能继续搜索要抓紧下棋了。那么当搜索树清空时,可能会出现无穷小,所以程序立即就返回了,而没有等到MCTS搜索完成必要的叶子节点。&/b&&br&&br&&b&但是这个猜想存在几个问题:根据统计,第78手虽然快一些,但是也用了1分钟,称不上非常短。&/b&&br&&img src=&/904d12db108c6387eec3a88_b.png& data-rawwidth=&1171& data-rawheight=&522& class=&origin_image zh-lightbox-thumb& width=&1171& data-original=&/904d12db108c6387eec3a88_r.png&&&br&&b&如果确实有这个bug,按理说应该在测试中容易测试出来,而且第5局也没有继续暴露问题。Google说第四局后并没有修改bug和参数,我相信Google的人品。但是这种情况,一定是要人下出没有在阿狗之前估计的可能走子范围的棋才能触发,所以也可能确实存在bug。(靠猜测给Google人肉debug,真是累啊。如果有Google工程师看到,以后问题解决了,能不能私信告诉我一下)。要真是这个问题,负责该模块设计的工程师应该打屁股,扣绩效。&/b&&br&&br&&b&2)更大的可能是因为估值网络的返回不正确,可能是被『过度拟合』了。&/b&&br&过度拟合就是训练神经网络时,调整到能够完全匹配样本数据,但是实际使用时,情况稍有变化,就不能适应了。再说的直白点就是一个人做事情特别轴,一点灵活性也没有,死板教条的很。&br&&br&&img src=&/90b945a865b1a4aa5edf_b.png& data-rawwidth=&704& data-rawheight=&638& class=&origin_image zh-lightbox-thumb& width=&704& data-original=&/90b945a865b1a4aa5edf_r.png&&&br&(上图中(a)和(b)即使训练数据时过度拟合了,(c)和(d)对实际情况的适应能力很好)&br&&br&&b&回想一下我们之前提到的阿狗九段最终做出一手下到哪里的决策时:&/b&&br&&b&决策依据=初值+0.5*MCTS搜索的结果+0.5*估值网络的结果。&/b&&br&&b&这样看来,造成阿狗下出78手后的几手臭棋,很可能是估值网络的返回有严重问题,造成程序很快就选择了错误结果,连续失误后,过了好几手才发现获胜概率显著降低。&/b&&br&&br&根据@田渊栋老师提供的分析(&a href=&/yuandong/& class=&internal&&第四局AlphaGo败招的分析 - 远东轶事 - 知乎专栏&/a&):&br&&img src=&/ad6ad8e3fcb9d08c8e2cdb6_b.png& data-rawwidth=&600& data-rawheight=&391& class=&origin_image zh-lightbox-thumb& width=&600& data-original=&/ad6ad8e3fcb9d08c8e2cdb6_r.png&&&br&&b&DarkForest程序在没有用估值网络情况下,可以走出正确的棋。估值网络出问题的原因,主要可能是在用左右互搏自学习时,因为需要大量的学习样本。但是在学习过程中由于本身并不做逻辑计算,所以会死活不分,这样就会产生盲点,染上一种中盘复杂对杀时会对非常简单的棋算错的毛病,我称为『突发性短时抽疯』在第四局中,黑83手之后的几次犯了这个病,搞得当时李世石都乐了,估计是想:这么弱的对手,我居然会输!&/b&&br&&br&&br&&b&围棋的状态空间如此之大,不可能穷尽所有可能,目前阿狗在训练中也就是学习了3千万盘棋。这样,MCTS搜索就必须要剪枝,而剪枝那就必然可能丢掉更有威胁的招数,只不过概率很小而已。这个问题比较难解决,所以Google也说要重新训练估值网络。那么,可能的方法一是要考虑加强对更高段位棋手对局学习的权重。说起来容易,做起来难,首先就是权重到底调整成多少合适?其次就是如何识别好棋?不见得高段位下出的一定是好棋,人可以知道哪些棋好,自动判断很难。还有训练神经网络需要的对局数量很大,怎么解决?&/b&&br&&br&&b&我尝试从另一个角度思考如何解决:DCNN过度拟合的问题不好解决,但是可以考虑动态调整决策时分配给MCTS和估值网络的权重。和田渊栋老师交流时,我们都认为:因为目前阿狗的设计是估值网络只给出一个评估数,如果对MCTS搜索的节点,都估值,然后再统计,效果可能更好。但是因为MCTS的每个叶子节点都是新拓展出来的,都进行估值,情况就非常复杂,计算速度也是问题。&/b&&br&&br&&b&但是我们可以简化一点。再重新看阿狗的基本结构:阿狗相当于拥有两个大脑,一个是逻辑计算能力强的左脑(局部强,但是看的不远),另一个是有大局观的右脑(有时死活不分,对杀会出错)。其他的围棋程序一般只有左脑,所以下不赢高手。阿狗厉害的地方就在于把这两个大脑结合和平衡的很好,不过所谓的平衡也就是上面那个直接各自0.5的权重。Google通过自我对局,觉得0.5的权重对比其他全总有95%的胜率,这个我实在是觉得Deepmind做得不好,怎么能用这个逻辑去决定就用0.5呢,问题根本就没有全部搞清楚:不仅要在不同的对局中比较不同的权重,还要在同一个对局的不同阶段比较权重的优劣。&/b&(画图)&br&&br&&br&&b&因为权重的选择目前还很难用理论指导,但是至少我们可以直观通过和人类比得出判断:开局阶段,大家都在布局,也没法算到很清楚,所以就应该多依靠定式和大局观,对于阿狗,就应该给估值网络更大权重;在官子阶段和局部,人可以算的很清楚,就应该多依靠左脑,也就是MTCS搜索的结果。我看直播中,古力和常昊也就是算个十多步,阿狗可以算20步,这个能力应该是很强的。综合看整个5局,大家发现阿狗九段的大局观很好,这很出乎意料,但是局部和官子反而不那么好,好比阿狗是一个天赋非常好的高手,不过得了一个偶尔会『突发性短时抽疯』的毛病,抽疯时直接就不会下棋了。其实我们的直觉判断没错,阿狗的计算能力是很强,但有时没有表现出来的原因就是我上面阐述的,不是阿狗计算不好,是平衡的不好。这个权重可能就是我们所说的棋风吧,它决定了棋手是擅长布局,视野开阔的聂卫平,还是计算能力超强、锱铢必较的李昌镐;亦或是大开大合的古力!不过阿狗九段只要解决了这个问题,就可以更厉害,成为十段(写到这里,真觉得我们这些死程序员真是亡人类之心不死啊!)&/b&&br&&br&&br&但是,这个问题解决起来不如容易,因为也没法有具体的理论指导,只能通过大量的模拟调整。不过我想,即使是很简单的判断局面已经落了多少子,大概的判断应该偏重哪一方面,还是可以提高阿狗能力的。&br&&br&&b&3 超越围棋,对人工智能的发展与启示&/b&&br&&br&&b&第五局直播时,我听到古力,俞斌、常昊觉得如果阿狗和人类多下一些棋,有信心赢,对此我不太乐观。原因是,不能静态的看待阿狗的棋力,要考虑到DeepMind工程师可以迅速的改进设计。这次Google真的是太赚了,花了这么一点钱,吸引了全世界媒体的注意,而且还有这么多围棋高手,人工智能专家一起把脉,给阿狗免费做测试。我一个航天民工,工资那么低,还用了这么多业余时间免费帮Google出主意,真是不可理喻,这就是好奇心的力量吧!&/b&&br&&br&&b&1) 非理性决策问题&/b&&br&&b&第2节对阿狗缺陷的讨论展开也很有趣,其实人类在平衡理性的逻辑思维和直觉的感性思维时,也不见得做的很好。&/b&经济学上有非理性决策的说法,例子很多,比如《无价》中的例子:&br&&blockquote&给你一大笔钱,比如1000美元,你需要选择一个金额,比如900美元自己留下,剩下的100给另外一人B;此时B可以有两种选择,收下100美元,或者拒绝。如果拒绝,那么你也得不到那900美元。&/blockquote&很简单一件事情吧,如果说有人白给你100美元,估计没有不要的。但是当把本质相同的一件事这样表达出来是,多数人完全非理性,白给的钱往往不要,人会觉得这种情况吃亏了,宁愿选择大家一起完蛋。这种情况是非常常见但细想起来非常奇怪的一种人类决策案例。&br&&br&&b&2)打劫引发的思考:战略思维能力&/b&&br&在比赛过程中,大家最后发现阿狗九段不怕打劫,但是一般会避免打劫。这个在技术上的原因估计是训练时,打劫是单独训练的。但是打劫这种事,工程师不可能在每一步都考虑如何打劫,只能在有劫争出来时才开始处理。这种机制就给人类了机会,比如@&a href=&/people/tyro& class=&internal&&Tyro 谈宇清&/a&指出的:&br&&br&&blockquote&现有的计算机程序通常只会对已经发生的打劫进行计算,对于还没有出现的打劫是不做提前预测,并对没有发生的劫争和尚不存在的劫材也不会做刻意准备的。如果AlphGO把棋盘上尚不存在,但所有未来可能做劫的地方全部建立线程,开的进程就太多了,计算效率就太低了,请注意:是把整个棋局在未来几十步甚至一百步可能出现的劫争。而与此对应,是可能未来出现的劫材,目前盘面上根本没有的。因为计算机为了节约计算量,对很多极低概率的分支进行了剪枝,不予考虑,否则计算量太大了。而这些如果都不剪掉,那就没有边了。由于它们尚未发生,任何一个开发者都不会把90%的开发精力放在解决一个1%的小概率事件。那样就颠倒了主次,极度浪费资源。所以,围棋AI的开发者的策略就会是:只对已经发生的劫争做计算,不对未发生的劫争做虚拟计算。这样,AI的漏洞就来了,人类会刻意去钻这个空子。这就如同一个公司,你不可能让90%的人去当保安去防范被人打劫的风险,只留10%的员工去工作,而这些保安还不停的跑上跑下,忙着检查这些干活的员工是不是会偷东西,会不会对外勾结。公司只能在看到有盗窃风险时动用保安,这就是正常的逻辑。&br&&/blockquote&&b&目前看来,这个问题阿狗似乎处理的还算好,可能是平衡了MTCS搜索和估值网络的问题,而且搜索的深度也比以前的围棋程序要强很多。&/b&&br&&br&&b&不过这件事其实指出了目前阿狗在总体设计上的一个很大的不足,就是虽然有了大局观和计算推理能力,但是还缺乏对整个局面的深入理解能力,或者说在大局观之上的战略能力。&/b&人类可以为了远期目标,可以用计谋,通过设局,使用各种阴谋诡计达到目的,这都是基于无数经验基础上,充分发挥自己的想象力做出的决策。目前阿狗显然不具备这种能力。但是超出围棋,真正的人工智能一定要有这种能力。&b&对于不对称信息博弈时,更需要有这种自顶向下的战略思维能力。如果阿狗有这种能力,它就需要在下棋之前就要有整体的布局,也许&/b&&b&真有可能故意输棋,因为战略能力本质上是要能够超出对局本身思考的一种能力&/b&。但是如何构建呢?我不知道,也许可以基于一些人类的决策模型来展开。如果有人在这方面哪怕做出一点工作,我觉得都可以随便发个Nature了吧(到时能否引用一下我这篇文章呢?嘿嘿)。&br&&br&&b&基于概率的所谓人工智能程序,对于解决封闭式的对称博弈问题会很有效,但是对于更加复杂的问题,哪怕看起来只是生活中我们觉得很简单的小事都会束手无策。我在T大的张老师喜欢讲火鸡的例子:前99天,每天早晨火鸡都能吃的很爽,第100天被砍头了。站在火鸡角度,不管是基于大数据的概率分析还是其他各种模型,都没法解决这个问题,因为你永远学不到砍头这件事,学到这件事的火鸡又都死了,没法把经验传递出来。要解决这个问题,必须从系统中跳出来,观察其他的阿猫阿狗,然后通过联想学到知识,这就是自顶向下的战略思维能力。&/b&&br&&br&第五局直播中,古力老师讲解到,因为李昌镐和曹薰铉两位高手在一起经常下棋,大概有300多局,然后大大提高了双方棋力。古力老师对此非常羡慕,因为你想找到一位发挥稳定的高手陪练自然不易。&b&人类的学习能力非常强,往往很少的样本就可以,当然也因人而异。这有一个比较基准的问题,人有之前几十年的各种经验,计算机没有?那么能不能让计算机也有?比方说,这次阿狗经过训练的神经网络,在解决其他问题时能否直接利用?如果能,那么就可以不断的积累经验,能力会越来越强,而不是是针对每一个规则和场景,都要重新训练网络。至少能否部分的复用?这对于人工智能的发展就非常有意义。&/b&&br&&br&@&a href=&/people/Erdnussoelbearbeiter& class=&internal&&Heinrich&/a& 在下面文章中给出了一些有趣的数据分析:&br&&a href=&/wille/& class=&internal&&【数据分析】AlphaGo眼中的李世乭&李世乭最后的机会 - 与时间无关的故事 - 知乎专栏&/a&&br&&img src=&/e871fbdcead4cb7839c9_b.jpg& data-rawwidth=&800& data-rawheight=&404& class=&origin_image zh-lightbox-thumb& width=&800& data-original=&/e871fbdcead4cb7839c9_r.jpg&&&br&&br&&p&&b&这是一个深度卷积神经网络(DCNN)一层的卷积核,除了第五行前两个卷积核(其实是一个卷积核的两个特征),是在找最普通的眼,其它很难知道这些卷积核在做什么。&/b&&b&所以深度卷积神经网络在实践中很有用,但是它像个黑盒子,理论研究非常不够。如果我们不能从理论上理解DCNN究竟是如何学习和抽象特征的,那就无法高效的训练和复用神经网络。&/b&&/p&&br&&br&&br&&b&4 赛后感悟&/b&&br&&br&&br&&b&目前的机器学习,人工智能和普通人理解和期望的『人工智能』可以说都不是一个东西,让机器像人一样思考是很困难,人可以非常灵活的针对盘面情况调整策略,但是让机器做到就很难。就像我上面谈到的,阿狗已经是一个精心设计的极为复杂的系统,牵一发而动全身,&/b&&b&仅仅是动态调整一下权重都很不容易实现。&/b&&br&&br&&br&在观看直播的过程中,本来完全不懂围棋的我也可以被其中无穷的变化所吸引。腾讯请了古力、常昊讲解,之前只是听过他们的名字,这次看他们分析棋局和讲解,感觉多年下围棋,可以让人变得如此淡定从容,举手投足悠然自得,一副魏晋风流的感觉,真是景仰羡慕。这真是围棋的魅力。&br&&br&Google通过这次比赛,成功吸引了全世界的眼球。&br&&img src=&/b4faa9b6ab_b.png& data-rawwidth=&600& data-rawheight=&335& class=&origin_image zh-lightbox-thumb& width=&600& data-original=&/b4faa9b6ab_r.png&&Google股价在比赛一周的变化情况&br&&img src=&/eca63d779f91bc8451669_b.jpg& data-rawwidth=&2378& data-rawheight=&796& class=&origin_image zh-lightbox-thumb& width=&2378& data-original=&/eca63d779f91bc8451669_r.jpg&&百度指数&br&&br&&br&&b&围棋变成了所有人谈论和感兴趣的事情,在我印象中,上一次恐怕还是聂卫平时代。我觉得这真是是一件非常好的事情。我自己在一周内,大脑被高速运转起来,几乎一直在思考相关的各种问题,真是很爽又疯狂的一周,感谢Google和李世石为人类文明发展做出的共享。也许,阿狗真的是我们从宙斯哪里偷来的第一把火,我们每个人都见证了历史性的时刻,即将迎接一个新的时代的到来!&br&&/b&&br&&br&&br&&b&5 &/b&&b&工程师造人&/b&&br&&br&&br&&br&对人工智能开始有兴趣是读硕士研究生时,我阅读了一本非常著名的好书:&a href=&///?target=https%3A///subject/1291204/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&哥德尔、艾舍尔、巴赫 (豆瓣)&i class=&icon-external&&&/i&&/a&,这本书激发了我对人工智能的热情。&br&&br&&b&后来,我和好友经常一起讨论生命和智慧如何产生的问题。有一次,忽然想到,也许可以换个思路,不要老想着模仿人类搞人工智能,假定我们就是上帝,现在我们来造人,我们将如何设计人呢?注意这个上帝不一定是宗教意义中的上帝,它可以就是自然规律本身。于是我们写下了一个既有雄心的研究计划,后来发现,以自己的脑力和智力,恐怕根本无法完成。因为人类对自己的了解实在是太少了。借此机会,就把当时的大纲写在这里,不知道有没有有兴趣的朋友一起讨论。我们不仅要模仿人搞人工智能,还要看看能不能干脆搞出来人工生命。&/b&&br&&blockquote&&p&&b&大设计之工程师造人计划&/b&&/p&序言:&p&科学家的任务在于探索新世界,工程师的任务在于改造旧世界。&/p&&p&所以工程师有时候不太在乎有没有道理,这是为什么?相比之下,他们更在乎好用,能够解决实际问题,这是工程师的哲学。&/p&&p&万物之中人时最奇特的,&/p&&p&假定我们抛开进化论,假设有这样一个新世界,在这个世界中,你是唯一的存在,你是一名工程师,假定这个世界和地球完全相同,只是没有人类存在&/p&&p&现在&/p&&p&你的任务是造人出来&/p&&p&这个想法太奇特了,让人热血沸腾,毕竟不是谁都有这样的机会&/p&&p&这个计划有点像伽利略的思维试验&/p&&p&造物的规则简单而有效,在其统治下,有了宇宙万物,也包括我们——人类。&/p&&p&人类,是生物的一种,工程师,是人类的中一个群体。&/p&&p&目前,我们并未看到由工程师创造出新的规则,使其诞生另一个递归宇宙的希望。&/p&&p&但是,可以在思想中尝试。&/p&&p&现在我们出发,审视我们自身,开始一段不知会通往何方的旅程,&/p&&p&带我们开始这段旅程的,只有我们所了解到的一些粗浅的常识,但旅途中,逻辑会引领我们。&/p&&p&和其他工程师一样&/p&&p&任何设计,总是从功能设计开始&/p&&p&然后是需求分析,这包括对设计边界条件的分析,由于这实在太复杂,我们暂时将其替换为对当前世界中的“自己”进行分析&/p&&p&之后就是真正的设计过程&/p&第一篇:功能篇&p&在打开人类的设计图纸前——可以确信的是,她精密而优美,但并不完美——我们或许更应该思考,人被设计出来,应该能干什么。&/p&&p&造人之时,他会思考什么?他要一个什么样的。&/p&&p&主爱世人,那么主希望世人存在下去,主希望任何时候都能在他创造的世界中看到人们。就算他震怒之下制造洪水时,也不忘保留人类的火种。&/p&&p&那么,永恒或许是第一要务。&/p&&p&但是,常识告诉我们,世上并不会存在一个永远不会被破坏的事物,那么主想要实现他的目标已经成为一种奢望,永恒,只能无限的逼近了。&/p&&p&然而,当人的数量不为1时,或许我们能够将我们的分子也变成无穷大。&/p&&p&在一个无穷大的时间范围内,人类被毁灭的概率为100%。但是如果人类的数量也是无穷大时。这个概率或许能够小于1了。&/p&&p&那么,如何产生这个无穷大的数字,以及如何保持这个无穷大的数字,或许是人乃至任何一个生物的首要功能(功能1)。&/p&&p&从目前来看,造物并没有能力让人在一开始就无穷大,那么,这只能靠人类自己了。&/p&&p&人类需要能够让自身的数量不断增多。&/p&&p&这个需要摄取资源,才能保证这一点(功能2)。&/p&&p&计划生育和过度繁殖。理性。当具备超强的繁殖能力时,人类能够自己喊停。那么就需要理性功能。(功能3)&/p&&p&就功能3还可以讨论下功能1、3的矛盾和丁客。&/p&&p&对于功能1进一步讨论,我们需要自我保护,同时我们还需要努力保存我们的物种。&/p&&p&人为什么会舍己为人,人为什么会自杀&/p&&p&个人的生存与物种的生存之间是什么关系?&/p&&p&人需要适应环境(功能4)——因为这个设计的成果本身又会愈来愈严重的改变设计的初始条件,也就是人所处的环境本身,如果不能适应变化,那么设计的成果必然被这个“设计”干掉&/p&&p&个人需要适应环境,还要快速。&/p&&p&人类种群需要适应环境,慢速(进化)&/p&&p&人类与其他物种不同,人类的提升适应能力和存活能力还有社会知识的积累。一旦一个种群发育出这个能力,那么他就拥有了远优于进化的提升方式。同时,也带来了种群内部的战争。&/p&&p&1 上述功能需求如何通过设计落实到每个个体生物上&/p&&p&2 在保证第一点的前提下,如何让个体不会自我毁灭和互相毁灭&/p&&p&3 一个生命设计的关键之处是否就是如何在自我保护和自我毁灭之间取得平衡&/p&第二篇:阅读源码篇&p&人是如何实现这些功能的,有哪些缺陷&/p&&p&哪些是原生设计?也就是为了实现功能必不可少的设计元素,比如,大脑分为左右脑到底是原生设计的结果还是进化的结果?&/p&&p&再比如,手足的分离可以证明是进化的结果而不是原生设计。&/p&&p&原生设计一定是最基本、简单的基。可以用某种线性的方法推导出所有可能的进化结果。同一个空间中,基可以有无穷多种,我们需要挑一个好使的出来,这就算找到了可能的原生设计的一种。&/p&&p&目前我想,只有尽可能多的列出空间中的对象,才能找到空间,找到对应的基。我们还在第一步。&/p&&p&天哪,这个基底就是基因。这就是原生设计。太完美了。&/p&&p&如果人这个生物种群相当于一个线性空间,&/p&&p&如果人的基因相当于线性空间的基底,那么基因中应该没有任务多余物才对。&/p&&p&那么这个空间具体如何定义,如何定义其中的”0”元,”1”元,加法以及数乘&/p&&p&有没有叉乘,叉乘的结果还在空间里面吗?&/p&&p&造人要能够实现种群总的生命周期无限延长的目标,就必须具有进化能力,从而适应外部环境的变化,但是这样的话,单个生物体的寿命就不能太长也不能太短。太长的话,总的进化速度太慢,太短的话,外界因素作用的时间太短,来不及产生有益的正向的进化作用。那么,下一个问题,这样的进化能力是如何在任最初的设计中体现的,如何在基因中体现的。&/p&第三篇:设计篇改进设计子篇:&p&换我该如何设计?是否有更好的解决办法?&/p&&p&盲肠能割掉吗?&/p&&p&痘痘能不出吗?&/p&&p&我们能拥有红外视力吗?&/p&&p&为什么我们不能有肢体再生功能?&/p&&p&为什么我们会得病?&/p&&p& 可以考虑研究一下糖尿病是为什么产生的?在贫穷环境下生存的人们,会留下过度摄取的基因,我们国家生活水平的提高,让我们的过度摄取成为可能,因此&/p&&p&是否会绝望的发现,现有的设计无法改变。因为设计本身是为了适应。&/p&&p&那么适应的速度能否更快?&/p&&p&哪些是人类适应环境,自然选择的内容,哪些是不进行原始设计元素的修改就无法实现的设计改进目标?&/p&重新设计子篇&p&人类会毁灭自己吗?理论上可能,那么人,和人类社会,出现这种能力是否是一种失败?&/p&&p&或者说,人类的存活能力在加强的同时,自我毁灭的能力也在提升,那么我们永远也无法安全,因为我们摆脱了外界环境的危险后,自身的危险永远无法消除。&/p&&p&这样,外界环境的危险系数下降时,自我毁灭的危险系数在不断上升。&/p&&p&而受限于前文的讨论,人的数量不能是1,那么这种自我毁灭的可能再次加大了。&/p&&p&创造人类时,究竟要将人类赋予一个什么样的特质,才能够让这两个风险综合降到最低?&/p&&p&智慧物种之间的淘汰,除了运气外,是否这个平衡两个风险的特质,是至关重要?&/p&第四篇:递归造人篇&p&在计算机系统,在网络中造人。&/p&&br&&p&在计算机网络中模拟所定义的环境,设计准则,边界条件,然后开始造人。&/p&&/blockquote&&br&&br&&b&&u&
天启元年3月17日凌晨于北京&/u&&/b&
本文是AlphaGo与李世石人机大战结束之后的终结思考,全文较长,没时间的朋友可以直接看加粗部分。 比赛结束了,AlphaGo4:1战胜李世石,这同样是人类的胜利。鉴于韩国棋院授予AlphaGo荣誉九段称号,因此我将称呼它为『阿狗九段』。因为我并不懂围棋,所以主…
已有帐号?
无法登录?
社交帐号登录
诗酒佳人 烟雨江南

我要回帖

更多关于 李世石 alphago 棋谱 的文章

 

随机推荐