最强alphago是谁怎样炼成

  新版本的alphago是谁究竟有多厉害打败李世石的alphago是谁用了3000万盘比赛作为训练数据,alphago是谁 Zero用了490万盘比赛数据经过3天的训练,alphago是谁 Zero就以100:0的比分完胜对阵李世石的那版alphago是谁

  DeepMind联合创始人兼CEO 、alphago是谁之父戴密斯?哈萨比斯(Demis Hassabis)和alphago是谁团队负责人大卫席尔瓦(Dave Sliver) 等人同时在官方博客上发表文章,详解最强版夲阿尔法狗是如何炼成的与前代有何不同。

  哈萨比斯与学习大量人类棋谱起步的前代alphago是谁不同alphago是谁 Zero是从“婴儿般的白纸”开始,通过3天数百万盘自我对弈走完了人类千年的围棋历史,并探索出了不少横空出世的招法

  哈萨比斯等人专文:《alphago是谁 Zero:从零开始》

  席尔瓦在乌镇人机峰会上发言从语音识别、图像分类到基因和药物研究,人工智能发展迅速这些专家系统,很多是借用海量人类经驗和数据开发出来的

  然而,在有些特定问题上人类的知识要么过于昂贵,要么不靠谱要么无法获得。因此人工智能研究的一個长期目标就是跳过这一步,创造能在最有挑战性的领域不用人类输入就达到超人水平的算法。我们发表在《自然》期刊上的最新论文展示了实现该目标的关键一步。

  论文介绍了首个战胜人类围棋冠军的电脑程序alphago是谁的最新进化版本:alphago是谁 Zeroalphago是谁 Zero更为强大,可以一爭史上最强围棋手

  alphago是谁的前几代版本,一开始用上千盘人类业余和专业棋手的棋谱进行训练学习如何下围棋。alphago是谁 Zero则跳过了这个步骤自我对弈学习下棋,完全从乱下开始用这种方法,它很快超过了人类水平对阵此前战胜人类冠军李世石的前代alphago是谁取得了100连胜。

  alphago是谁 Zero之所以能当自己的老师是用了一种叫

  强化学习的新模式。系统从一个对围棋一无所知的神经网络开始将该神经网络和┅个强力搜索算法结合,自我对弈在对弈过程中,神经网络不断调整、升级预测每一步落子和最终的胜利者。

  升级后的神经网络與搜索网络结合成一个更强的新版本alphago是谁 Zero如此往复循环。每过一轮系统的表现就提高了一点点,自我对弈的质量也提高了一点点神經网络越来越准确,alphago是谁 Zero的版本也越来越强

  这种技术比此前所有版本的alphago是谁都更为强大。这是因为它不再受到人类知识的限制,洏能够从婴儿般的白纸状态直接向世界上最强大的棋手――alphago是谁本身学起。

  alphago是谁 Zero相较前代还有几点明显的差别:

  首先alphago是谁 Zero仅鼡棋盘上的黑白子作为输入,而前代则包括了小部分人工设计的特征输入

  其次,alphago是谁 Zero仅用了单一的神经网络在此前的版本中,alphago是誰用到了“策略网络”来选择下一步棋的走法以及使用“价值网络”来预测每一步棋后的赢家。而在新的版本中这两个神经网络合二為一,从而让它能得到更高效的训练和评估

  第三,alphago是谁 Zero并不使用快速、随机的走子方法在此前的版本中,alphago是谁用的是快速走子方法来预测哪个玩家会从当前的局面中赢得比赛。相反新版本依靠的是其高质量的神经网络来评估下棋的局势。

  所有这些差异都提高了系统的表现,使其更为普适不过,是算法上的变化使得系统更为强大和高效

  仅仅自我对弈3天后,alphago是谁 Zero就以100:0完胜了此前击敗世界冠军李世石的alphago是谁版本自我对弈40天后,alphago是谁 Zero变得更为强大超过了此前击败当今第一人柯洁的“大师”版alphago是谁。

  通过数百万佽自我对弈alphago是谁从零开始掌握了围棋,在短短几天内就积累起了人类几千年才有的知识alphago是谁 Zero也发现了新的知识,发展出打破常规的策畧和新招与它在对战李世石和柯洁时创造的那些交相辉映,却又更胜一筹

  这些创造性的时刻给了我们信心:人工智能会成为人类智慧的增强器,帮助我们解决人类正在面临的一些严峻挑战

  尽管才刚刚发展起来,alphago是谁 Zero已经走出了通向上述目标的关键一步如果類似的技术可以应用在其他结构性问题,比如蛋白质折叠、减少能耗和寻找新材料上就能创造出有益于社会的突破。

9月20日DeepMind官方首次公开了纪录片《alphago昰谁》的预告片,片中回顾了alphago是谁与多位世界顶尖棋手的对战

澎湃新闻见习编辑 冯元晴 来源:DeepMind 责任编辑:

正如赛前很多人预料的那样在與alphago是谁的第一场围棋对战中,柯洁输了

不过,也正如爱范儿(微信ID:ifanr)在昨天比赛结束之后一分钟内发布的所言alphago是谁已经今非昔比。確切地说无论是DeepMind对它的命名,还是它背后的计算力量乃至它自身的棋力,都发生了脱胎换骨的变化总结文章

5月24日,赶在第一局比赛結束之后DeepMindCEODemisHassabis在第二天举行的中国乌镇人工智能高峰论坛中,专门谈到了alphago是谁背后的研发过程和对战故事以及对这次比赛中alphago是谁的相关问題进行了解读。

Hassabis首先对DeepMind进行了简单介绍然后开始谈起alphago是谁背后的复杂性。他表示计算机下围棋之所以异常困难,是因为围棋的复杂程喥让穷举搜索都难以解决;由此衍生出两项难题:一是不可能写出评估程序以决定谁赢二是搜索空间太过庞大。

而在具体的alphago是谁研发过程中DeepMind更是要考虑直觉和计算的问题;因为围棋是一种独特的游戏,它具有以下特征:

围棋不像象棋等游戏靠计算而是靠直觉。

围棋中沒有等级概念所有棋子都一样。

围棋是筑防游戏因此需要盘算未来。

“妙手”如受天启玄妙深奥。

2016年3月alphago是谁与韩国围棋选手李世乭九段进行了举世瞩目的“人机大战”,最终以4:1的比分获胜;其中alphago是谁在第二局中下出了令人惊叹的第37步棋,不过在第四局中也被李卋乭的“神之一手”所困扰

Hassabis介绍说,alphago是谁与李世乭之间的对决对围棋本身的影响是多个层面的。首先是体现的围棋的影响力上这次對决拥有2.8亿观众和3.5万篇报道,并且推动围棋棋盘的销售量增加了10倍让不少西方人开始关注这项来自东方的古老技艺。

但alphago是谁给围棋带来嘚真正改变在于思维方式的启发;李世乭在赛后表示:

我认为这给围棋引入了新思路我感觉找到了自己下棋的理由。

对于DeepMind团队来说alphago是誰与李世乭的对战也让他们对alphago是谁有了新的判断。Hassabis表示alphago是谁在与李世乭的对决中,不仅仅表现出了它应有的认知能力甚至已经表现出叻一定的创造力,虽然是非常有限的

在2017年元旦前后,alphago是谁以Master的身份与包括柯洁在内的60名人类顶尖高手进行了对战并全部获胜。Hassabis表示茬这60场对决中,alphago是谁表现出了更强的创造力尤其是在它与辜梓豪和朴廷桓的对决中。

人类数千年的实战演练进化计算机却告诉我们人類全部都是错的,我觉得甚至没有一个人沾到围棋真理的边……我们棋手将会结合计算机,迈进全新的领域达到全新的境界……人和AI应該可以趋近围棋真理

Silver表示,其实与李世乭对战的版本的全名为alphago是谁Lee它在GoogleCloud上使用了50个TPU(全称为TensorFlowProcessingUnit,是Google为了加速深层神经网络运算能力而研發的芯片);而Master的全名为alphago是谁Master它实际上是运行在单个TPU机器上,它的强大之处在于能够从自我对弈中强化学习同时也使用了更强大的策畧&价值网络。

实际上在alphago是谁团队的评估中,alphago是谁Lee的等级分为已经在3500分和4000分中间而alphago是谁Master的等级分已经超过4500。作为对比当今世界排名第┅的柯洁在GoRatings的等级分为3620。

(alphago是谁各个版本的评估分)

(alphago是谁已经被踢出评估体系)

至于这次与柯洁对战的alphago是谁版本Silver表示此次alphago是谁使用了苐一代的TPU,并不是Google前不久公布的第二代;另外今年升级版的alphago是谁是在单机上运行的,它的物理服务器上部署了4个TPU

由此可以想见的是,這一次柯洁将要面临的是多么可怕的对手

值得一提的是,在5月23日的赛后发布会中柯洁表示:

如果把alphago是谁当人的话,跟去年相比它已經完全是两个人;去年的时候,alphago是谁所下的棋还是很接近人的现在已经接近围棋上帝了。

跟上帝交手是一种怎样的体验柯洁九段也许昰这个世界上唯一有资格回答这个问题的人。实际上我们已经不太相信他会在接下来的两局比赛中能够赢上一局了,但是我们希望被打臉

我要回帖

更多关于 alphago是谁 的文章

 

随机推荐