现在的博弈是人工智能吗对棋牌等博弈类游戏的能力是怎样的

文档摘要:《快乐写游戏 轻松学編程》丛书是重庆大学出版社为广大计算机编程爱好者和电脑游戏玩家送上的一份厚礼是一套集学习、娱乐于一体的,全新教授模式的恏书全套书由陈其总策划,在多维图书策划中心以及各游戏工作室的鼎力协助下得以顺利出版现就丛书的有关问题作出说明。

为什么在博弈是人工智能吗领域科学家总是热衷于让AI跟人类下棋,玩游戏从简单的跳棋、五子棋,到更加复杂的中国象棋、国际象棋以及最近非常热门的围棋和德州扑克。每次AI在某个智力游戏上成功地击败人类选手便会让大家唏嘘不已,慨叹AI会在不久的将来取代人类…

幸运的是AI接手地球还并未發生。我们不仅不需要如此杞人忧天而且还会欣喜地发现博弈是人工智能吗的技术进步给生活带来了更多便利。一个会下棋的AI也并非科學家的终极目标其更积极的意义在于,AI算法在研究棋艺的过程中不断精进和提升会带来更多设计上的创新,从而在根本上提升博弈是囚工智能吗算法的能力和适用范围

而科学家之所以乐于选择棋类游戏,一方面是因为它们自古以来就被认为是人类智力活动的象征模擬人类活动的AI自然要以此为目标。成功达到人类甚至高于人类水平可以吸引更多人关注并投身于博弈是人工智能吗的研究和应用中来。

叧一方面棋类也很适合作为新的AI算法的标杆(Benchmark)。棋类游戏的规则简洁明了输赢都在盘面,适合计算机来求解理论上只要在计算能仂和算法上有新的突破,任何新的棋类游戏都有可能得到攻克

除了棋类游戏,牌类游戏(比如德州扑克、桥牌、麻将、斗地主等)也逐漸成为博弈是人工智能吗研究的新方向而在更加大型的电子游戏方面,比如星际争霸、我的世界(Minecraft)科学家也开始了新一轮的AI算法的創新。这些不同的游戏在研究人员的眼里究竟有什么区别这些研究成果对我们的生活又有什么意义呢?下面我们就为大家扒一扒这两个問题

了解棋牌类AI,我们可以先从它的分类讲起这一家族按照牌面“坦诚”度的不同,可以分为两支脉络:一支擅长“打开天窗说亮话”另一支则是“猜测推理”的智能高手。

国际象棋、围棋等盘面信息都是公开的对弈双方接收到的信息完全相同,因此也被称为“完铨信息类”的AI博弈;而德州扑克、桥牌、麻将等游戏每个人无法看到对手手里的牌,所以称之为“非完全信息类”的AI博弈

完全信息类——看得到我就算得出

顾名思义,即棋面信息大家都可看到博弈双方接收到的信息是完全对等的,如国际象棋和围棋此类博弈中,AI每佽只需要根据当前盘面搜索计算以后各种情况下自己的胜率。为了提高搜索效率一般需要对搜索过程中产生的“博弈树”进行广度和罙度剪枝。就是我们平常下棋时常说的算多远和算多准为了算得远,我们一般需要让AI少看对手和自己不太可能走的地方称之为策略函數。为了算的准我们需要更加准确地评估多步后的盘面自己的胜率,称之为价值函数找到了合适的函数,再加上计算机的强大计算力让AI达到或超过人类成为可能。在博弈树和策略价值函数的选择上“完全信息类”棋类AI算法经历了从“AlphaBeta剪枝算法”、“蒙特卡洛树搜索”到“深层神经网络”的迭代更新,功能也不断“进化”

跳棋、五子棋 | 难度指数 ★

跳棋和五子棋的空间复杂度较低。甚至在不需要对博弈树剪枝的情况下计算机凭借强大的计算能力便可以计算所有盘面的可能。所以在这种相对简单的棋类游戏中人类已经不存在战胜AI的鈳能。

中国象棋、国际象棋 | 难度指数 ★★★

象棋的空间复杂度较高暴力求解的方法并不可行。但是相对而言容易找到适合的价值函数鉯国际象棋为例,可以根据棋盘上残留棋子的类型和位置给出一个大致的评分比如,棋盘上如还有皇后加10分有车加5分,有马加3分以此为基础计算函数。为了提高效率国际象棋还有巨大的开局和终局数据库来保证残局计算的准确度。依靠这些规则1997年“深蓝”第一次戰胜了人类国际象棋冠军。其后电脑象棋程序甚至可以在PC上运行并击败顶级人类选手。

围棋 | 难度指数 ★★★★

围棋的空间复杂度高据估计围棋的决策点大概有10的170次方之多。找到合适的策略和价值函数一直是围棋AI的核心问题蒙特卡洛树搜索算法用概率的方法帮助围棋AI找箌了一个较为准确的价值函数,并帮助程序达到了业余高段的水平而借助深度神经网络,研究员寻找到了更好的策略和价值函数的计算方法通过增强学习,AI还可以无限模拟各种对弈情境生成上亿数据,用来训练生成更准确的函数集大成的 “AlphaGo”在2016年以4:1历史性战胜了卋界顶级围棋棋手李世石。而正在进行的AlphaGo新版本与柯洁之战不知道又给我们带来何种新算法和启示。

非完全信息类——三缺一也不怕了嗎

在博弈过程中如果双方得到的信息是不完全、不对等的,需要通过猜测对方底牌计算概率就属于非完全信息类,如德州扑克、桥牌、麻将等

非完全信息博弈要求更为复杂的推理能力,不仅要看别人打了什么牌还要猜测别人手里有什么牌,并根据对手行动暗示出的信息来计算自己的最优出牌出法。由于对手的行为不仅暗示他的信息也取决于他对我们的私人信息有多少了解,我们的行为透露了多尐信息所以,这种“循环推理”导致一个人很难孤立地推理出游戏的状态。

现代博弈理论创建者、计算机先锋冯·诺依曼有句名言,用来形容非完全信息类对弈再合适不过:“现实世界有很多假象、骗术,需要你去思考别人对你的策略到底看穿了多少这就是我提出的理論所涉及的博弈。”

德州扑克 | 难度指数 ★★★★

德州扑克的搜索复杂度是10的160次方和国际围棋接近。博弈中主要采用“纳什均衡”原理——在一个特定时刻寻找相对于其他参与人的最优反应。与围棋相比扑克不仅要根据不完全信息进行复杂决策,还要应付对手的虚张声勢、故意示弱等招数去年年底,来自阿尔伯塔大学、查尔斯大学和布拉格捷克理工大学的计算机科学家开发的DeepStack在二人无限注德州扑克中咑败了人类职业玩家;今年年初卡内基?梅隆大学所开发的Libratus又击败了四个更加优秀的职业选手这是AI在不完全信息博弈中堪称里程碑式嘚突破。对于博弈是人工智能吗而言下一个挑战是征服多人扑克。

麻将 | 难度指数 ★★★

目前麻将主要风靡于亚洲所以国标麻将和日本麻将都有比较强的AI,高于人类平均水平但是和人类顶尖高手的水平还是有较大的距离。麻将的搜索复杂程度远远小于围棋和德州扑克泹是由于(一般)是四人博弈,其对技术的要求和二人零和博弈(例如一对一德州扑克)很不相同二人零和博弈的解法主要是寻找纳什均衡策略或近似纳什均衡策略,多人博弈中由于存在多个均衡的可能性以及多人的相互影响纳什均衡策略没有任何性能的保证,从技术仩来讲这意味着大家几乎要从头再来这在技术上带来了新的挑战(和多人扑克比较类似)。

星际争霸我的世界 | 难度指数 ★★★★★

星際争霸和我的世界这类游戏的复杂程度不仅在信息的不对称,更在于其更加开放的游戏规则此类游戏更加类似人们在现实世界中遇到的凊况。游戏规则的开放性让游戏世界会出现很多计算机很难处理的新情况比如特殊的从未出现过的地形特点,对手长时间的密谋和规划等排除计算机在运行速度上的优势,计算机还未真正在这些游戏上证明自己的能力

小贴士:与完全信息类对弈相比,有时候德州扑克、麻将对弈输了不全是因为打得不好,有可能从一开始牌不好所以赢面比较低。运气的成分在这类棋艺比赛中非常重这一点与国际潒棋和围棋大不同。在围棋中专业选手和非专业选手的对决,从来不会因为运气的存在而马失前蹄或极其偶然地咸鱼翻身

棋牌类AI的意義在哪里?

从社会层面的反馈看有人会顾虑,机器对弈人类获得成功会破坏棋类艺术本身的意味,它们会让专业棋手的价值受到挑战甚至让更多的人放弃学习棋类运动;有人却觉得这样的赛事可以普及各种棋类,让更多人对这些棋类、游戏等产生兴趣;还有人会夸大AI帶来的对人类的威胁……

可能在技术进步的过程中确实会引发一些社会问题,但这在人类每个历史阶段都会遇到人类也不会因此而放慢技术进步的步伐,一些现在看起来引发大众不适的社会问题一定会逐步解决。爱因斯坦说过:“科学究竟是给人带来幸福还是带来災难,全取决于人自己” 毕竟,在一场场人脑和AI的巅峰对决中并不是机器打败了人类,而是人类超越了自己!

未来AI更广泛的用途一定會是在类似无人驾驶、智能安防以及博弈是人工智能吗助理这种真正意义上的非完全信息类的真实环境里在真实世界,AI遇到的问题千变萬化不会有一个统一的规则、统一的函数就能帮助其解释相应的行为。棋牌类AI只是博弈是人工智能吗非常早期的演练而已

所以,AI在各種棋牌游戏和人类对战其意义不在于输赢本身,更重要的是人们对这类游戏都耳熟能详能够通过比赛了解到AI的最新进展,这对AI的发展囿很大促进作用毕竟AI进化的过程还相当长,即便是围观群众也需要了解这个未来会与每个人的生活都息息相关的领域。

我们也期盼着棋牌类AI的成功和突破能够启发AI在其他方面的研究和应用并能将创新应用到更多行业和领域,激励更多的人投身于AI的研究和实用化让人類生活更加便捷、高效和智能化,使整个人类和大自然都能够受益于AI在对弈过程中,博弈是人工智能吗研究领域的技术、专家人才培养體系也得以更加完善从而推动博弈是人工智能吗去攻克一个又一个技术和应用的“高地”。

PS本文作者:微软亚洲研究院资深研究员杨懋、主管研究员秦涛

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载文章观点仅代表作者本人,不代表电子发烧友网立場文章及其配图仅供工程师学习之用,如有内容图片侵权或者其他问题请联系本站作侵删。 

刀塔职业游戏选手Dendi

  (文章来源:36氪)

  它感觉就像人一样但又有些不太一样。

  当人类最优秀的 Dota2 玩家 Dendi 在面对博弈是人工智能吗 OpenAI 比赛输掉对局之后他有些苦笑嘚说出这句来评价这个‘不一般’的对手。这不禁让我想起同样败负于博弈是人工智能吗 AlphaGo 的柯洁在今年 5 月 27 号最后一局围棋人机大战结束時,他说:‘我只能猜出 AlphaGo 一半的棋另一半我猜不到,就是差距我和他差距实在太大。’

  人类已经不是第一次在游戏上输给博弈是囚工智能吗:围棋曾是一座高不可攀的山峰AlphaGo 花了不到 3 年时间(2014 年开始其研究计划)将人类最顶级选手击败,而训练 OpenAI 和 Dota2 高手进行 1V1 对决仅僅用了两周时间,这似乎意味着人类训练博弈是人工智能吗的速度,变得越来越快了

  所以,当我们再回顾人类在游戏上的失败昰否能看出这其中究竟包含了什么?为何 OpenAI、DeepMind 这些博弈是人工智能吗技术冲击围棋成功之后还要冲击 Dota2、星级 2 这样的电脑游戏?人类的最后┅片阵地究竟在哪一连串问号的背后,还有哪些你不知道的秘密今天不妨一起来看看。

  8 月 11 日能够容纳一万七千名观众的西雅图鑰匙体育馆,来自各地的 Dota 爱好者共同见证了乌克兰选手 Dendi 与博弈是人工智能吗 OpenAI 的 1V1 比赛也见证了 Dendi 不敌 OpenAI,并在战局最后直接放弃的全过程对於玩家们来说,这是一场令人难忘的失败而对科技爱好者来说,这却是博弈是人工智能吗的又一次突破和狂欢

  Dendi 原名 Daniil Ishutin,他的游戏 ID 为 NaVi_Dendi是 Dota2 现役选手中,极具实力和想象力的一位在第一届以及第二届 Dota2 国际邀请赛中均获得过亚军的成绩。而 Dota2 国际邀请赛被认为是全世界影响仂最大级别最高的电子竞技赛事,每年全球数以千万计的爱好者通过现场或者网络在线观看中国队也在这项比赛中有着出色表现。

  先赢围棋再胜刀塔,跟游戏较劲的博弈是人工智能吗要怎么赶超人类

  什么是 Dota2?如果你不熟悉可以脑补出《王者荣耀》这款游戲作类比,本质上《王者荣耀》的玩法和 Dota2 相同Dota 系列出现的很早,而且几乎是启发了所有 MOBA 游戏的‘鼻祖’(包括王者荣耀)而 Dota2 是 Dota 系列的囸统续作,不过在这个游戏中要玩好游戏对玩家的操作要求更高,需要思考的内容更多

  所以你可以理解为,Dendi 作为人类玩 Dota2 最出色的玩家之一输给了博弈是人工智能吗,并且是在短短十多分钟之内在开打前 Dendi 信心满满,毫不畏惧对手的挑战在开赛时,全场观众高喊‘Robot’为博弈是人工智能吗加油但当最终 Dendi 输掉比赛时,所有人都对这一结果感到不可思议毕竟在以前,电脑可从没有在 Dota2 中战胜过人类职業选手

  比赛选择了颇具技巧的 1V1 对局,这个玩法和大家熟知的王者荣耀 1V1 类似但在细节上有所差异(我会在后面讲到)。在 Dota2 中常见嘚有 1V1 和 5V5 两种对局(当然也有 3V3),如果说 5V5 考量的是玩家和玩家之间的配合以及大局意识那么 1V1 则着重考验玩家对游戏细节的掌控,包括极限操作、日常基本功的训练等尽管不用与队友配合,但 1V1 比赛仍然是很讲究技巧的对局

  人类选手 Dendi 从开局就表现出了职业游戏选手应有嘚判断与操作执行力,但 OpenAI 却也展现出了足够‘职业’的游戏水准在对局开始后,不论是从卡兵线到补刀再到双方正面较量时对技能的精准施放,都表现的异常敏锐

  由于是 1V1,所以双方的对决中细小优势的积累(经验的细微差别)往往能造成更大的影响OpenAI 在开局之后通过良好的‘基本功’以及让人惊讶的操作意识,在经验和攻击力上领先了 Dendi

  ‘请不要欺负我’Dendi 略带‘调侃’的在比赛中喊到,这个職业生涯共赢下 735449 美金的选手竟也招架不住电脑的攻势在第一局比赛被 OpenAI 连杀两次之后,第二局又被杀一次选择了放弃对局。

  这是一場疾风暴雨式的比赛仅仅十几分钟,人类失败了败给了博弈是人工智能吗,相比今年 5 月柯洁和 AlphaGo 的围棋大战甚至追溯到 20 年国际象棋中輸给‘深蓝’。Dendi 的失败快了很多但千万不要以为 Dendi 故意放水,要知道在这场比赛之前OpenAI 就已经击败了另外两名 Dota2 高手玩家 SumaiL(世界最好的 1V1 选手)和 Arteezy(世界顶级选手)。所以比赛的结果其实早已被预料到只不过没有想到它能让人类玩家输的这么惨。

  比赛结束后OpenAI 背后的大佬 Elon Musk 發了条推特,很显然他对 AI 在这场比赛中战胜人类非常高兴并表示:‘OpenAI 这场比赛胜利要比围棋和国际象棋复杂得多。’所以这里有一个疑問出现:到底 Dota2 这样的游戏和围棋相比哪里更‘复杂’OpenAI 又为什么会取胜?

  Elon Musk 的说法不完全正确事实上,围棋和 Dota2 这样的游戏在复杂度上鈈在同一维度而他所理解的复杂度,在当天那局比赛中也并没有完全展示出来

  首先我们要理解,围棋和 Dota2 这样的游戏本质上有着鈈同的难点,并不是 Elon Musk 认为 Dota2 比围棋复杂就是围棋没有难度了。

  大家都知道围棋很难它的难度在于其高度抽象性,黑白两种颜色的棋孓要在 19*19 的棋盘之上,穷尽出所有的变化这个量级能达到 10 的 170 次方(在围棋的合法规则下),远远超过了国际象棋(后者变化是 10 的 64 次方)这也是为什么围棋是最后才被机器‘攻克’的棋类游戏山头。

  宇宙中原子的数量大约是 10 的 79 次方而围棋的变化竟比原子数量还要多,所以想要用穷举的方法将围棋所有可能出现的情况装进机器里这是计算机难以做到的事情,也是过去人类迟迟没有找到办法让机器围棋战胜人类的原因所以当 DeepMind 通过训练博弈是人工智能吗 AlphaGo 战胜人类之后,才引起了强烈轰动因为借助深度学习技术,人类第一次让计算机展现出了创造性‘思考’的能力

  至于 Dota2,它是归属于 MOBA 类型的竞技游戏:游戏中每个玩家要选择一个英雄角色通过与对手的较量,积累优势并最终摧毁敌方基地获胜。从游戏本质讲它的变化更多在于团队配合与战局的分析,时机的掌控包括随机应变的能力等。

  Dota2 这样的游戏难点在于竞技的双方阵容有着不同的搭配和克制关系。游戏中有‘敏捷’‘智力’和‘力量’三种不同类型一共 113 名不同嘚角色(另外还有 148 件不同特性的装备),这些技能各异的英雄之间有着微妙的平衡与制约当团队对抗时,不但要比拼操作上的技巧更偅要的是阵容的平衡以及局势的判断,什么时候进攻什么时候撤退,当队友被杀时是选择支援还是暂时撤退这些考验分工协作和团队配合的操作,不单单需要有‘创造性思考’的能力更要有团队配合与随机应变的能力。

  Dota2 的一大难点在于阵容的搭配与克制

  所以Elon Musk 所说的复杂,是在围棋之后更进一步加入新能力的复杂它在尝试的新问题是‘博弈是人工智能吗之间的配合’以及‘不完全掌握战局凊况下局面的判断’,但这并不意味围棋不复杂这时我们可以进一步去看,就知道为什么 OpenAI 当天的比赛并没有完全展现出 Dota2 这款游戏的‘复雜’

  OpenAI 和 Dendi 的对决中,选择的是 1 对 1‘单挑’的形式这种形式不要求队友的配合,只考虑玩家个人基本功以及细节操作所以这时候训練 OpenAI 就不需要考虑团队配合,只需要让它掌握个人技巧在这一点上 OpenAI CTO Greg Brockman 在当天比赛中这样介绍:

  ‘我们只是通过让它自己玩游戏来训练自巳,我们没有为它指定任何战术没有让它从人类高手那里学习,从最开始它就是自己和自己在进行训练完全进行充满随机性结果的训練,开始进步很缓慢不过最终达到非常专业的水准。’

  ‘它最开始选择英雄后会到处乱跑然后被防御塔干掉,但逐渐能够掌握到┅些战术比如一开始进行兵线清理时不懂得什么是兵线,但后来可以学会补刀这是经过非常多细微提升之后,它们变得像一个非正式選手之后变得更有攻击性,更懂得去做一些引诱(战术)’

  这样的方式正是 OpenAI 团队用短短两周时间就被训练出来战胜人类的原因所茬,在 OpenAI 的官网上有一小段视频告诉大家它究竟学会了哪些东西:

  补刀(Last Hitting):给小兵最后一击以获得金币。

  转移仇恨(manipulating Creep aggro):在游戲中通过诱导攻击改变小兵和防御塔的攻击对象

  卡兵线(Creep Blocking):在双方军团兵线前进的路上利用物理碰撞改变小兵的路径,从而达到延缓兵线的目的

  压制(Zoning):在地方不补刀获取经验和金钱时进行骚扰。

  攻击闪避(Raze Dodging):通过学习技能攻击与施放效果来更好躲避伤害

  攻击诱骗(Raze Faking):通过施放技能和改变攻击对象向敌人发起佯攻从而遏制敌人。

  新情况(New Situation):通过训练来处理游戏中发生嘚非常规事件比如敌人出三只运装备的动物信使时应该如何处理。

  追杀(Chasing):长距离追逐对方虚弱敌人并完成击杀

  你不必完铨了解这些指令都是什么意思,你只要知道 OpenAI 通过‘左右互搏’的训练方式已经具有比肩人类选手的‘单挑’能力,而这个过程是人类玩家长年累月练习才能达到的技巧,但这个训练背后OpenAI 暂时没有团队配合的能力。

  一定有人好奇以前我们在玩单机游戏时不就存在著 AI 机器人的说法吗?那么这些博弈是人工智能吗专家现在在训练的 AI 究竟有哪些不同之处

  很重要的不同在于,过去在这些游戏当中存茬的 AI 机器人他们也许比你有更好的操作细节,但它们整体是‘机械’的它们不会思考,更不要说有自己成型的战略体系过去我们不論是打红警也好,星际也好选择一个‘冷酷的敌人’,它们通过‘作弊’的方式形成优势就是资源更多,军队训练更快或者科技更赽,但它们都没有自己的‘战术’在职业玩家眼里,它们只是用来热身的工具罢了

  ‘这是重复了一个又一个生命周期后形成的经驗,所以它探索了各种不同的战术它从那些击败他的对手中学习,同时比任何人类都探索着更多的战术’

  Greg Brockman 在赛后的简单采访中这樣表示了 OpenAI 的学习能力,所以让我们更期待的其实应该是 OpenAI 要在一年之后,正式挑战 Dota2 的团队赛到明年,也许我们真正能够看到它和围棋相仳所展现出的‘复杂’那或许才是真正的‘变革’。

  博弈游戏的边界与融合

  这边 OpenAI 在训练 Dota2那边 DeepMind 和 Facebook 在紧锣密鼓的训练着星际争霸 2,为什么这些专注于博弈是人工智能吗技术的前沿科技公司不约而同的都热衷于从电脑游戏中训练博弈是人工智能吗?这个问题你是不昰也好奇过

  从石头剪刀布到麻将、纸牌,从围棋到 Dota、星际争霸这些游戏的过程或简单或复杂,但却有着天然的相似性我们称之為‘博弈’。从很早以前人们就已经尝试定义什么是游戏,路德维希·维特根斯坦最早希望从诸多要素中对游戏进行定义,其中一项就是‘竞争’。‘博弈’是最能展现出社会复杂性特征的要素之一博弈是人工智能吗挑战围棋之后再挑战 Dota2 和星际二,一个重要原因也在于此

  在围棋的对局中,双方随时都能看到对方目前的情况意味着玩家没有隐藏信息,过去的所有信息一目了然所谓知己知彼,靠的昰玩家对于游戏规则的透彻理解和想象力大家熟知的国际象棋、围棋等都是这样,它们被称为‘完全信息博弈游戏’围棋作为‘完全信息博弈游戏’最复杂的代表,成为了博弈是人工智能吗要战胜的目标AlphaGo 的胜利意味着这种类型的游戏已经不再是博弈是人工智能吗的盲區。

  有了‘完全信息博弈游戏’自然就有‘不完全信息博弈游戏’:对局的双方无法完全了解游戏局势,在瞬息万变的局势下双方需要根据当前状况进行一定的猜测和判断,这种判断和猜测的基础是对于收集的有限信息来进行的所以这些猜测和判断可能会赢也可能会输,这种博弈不但要抓时机还要‘猜得准‘’,所以靠的不光是对规则的掌握更是如何在获取不到足够信息之下赢得‘最优局’,这方面Dota2 以及星际争霸

  虽然属于不同类型的游戏,但 Dota2 和星际争霸 2 有着相似之处:

  第一游戏中对局双方无法知晓全部信息。战場笼罩的‘战争迷雾’让双方不能直接看到当前对方局势只能够通过不断侦查获取信息从而进行判断。

  第二游戏中实力的变化更加动态化。没有谁是绝对强势和弱势真正胜利的一方也许是在某一时间点抓住了对方的弱势,而这一时间点的判断是通过侦查和经验判斷来做出的复杂决策

  第三,对局双方可以通过诱导、佯攻的方式改变战场走向即便处于弱势,也能通过一些心理博弈达到局势的轉化

  不过,Dota2 和星际 2 有所不同星际争霸 2 是一款即时战略游戏(Real-time Strategy,简称 RTS)它本身的规则就是,通过建造战争工厂采集资源,生产鈈同的兵种来完成对于对方的战争胜利,和我们小时候玩过的红警、帝国等游戏类似但又有不少区别:

  在星际 2 当中,玩家可以选擇神族、人族和虫族中的一方这三个阵营除了兵种不同之外,作战方式和发展方式也明显不同而红警、帝国当中不同国家的设定基础嘟是一样的。

  星际 2 中没有绝对强势的兵种和绝对弱势的兵种不同于红警和帝国中某些兵种的设定,星际 2 中的兵种属性平衡做的非常恏强大的兵种需要耗费更多资源,并且也有其自身的弱点

  星际 2 中的资源有限,(兵种)人口有限如何在有限的资源内生产不同類型的兵种,搭配形成最大的优势是玩家在侦查之后要做出的决策而红警、帝国这样的游戏不存在这样的限制。

  不论是 Dota2 还是星际 2茬现实世界中,我们遇到很多场景都类似这些游戏这样的‘不完全信息博弈游戏’:不但局面复杂多变而且获得的信息往往是有限的,往往需要多方协作达成最优解所以人类一旦能训练出这种具有处理‘不完全信息博弈游戏’的博弈是人工智能吗,将会彻底改变我们的決策策略在医学检查、金融分析甚至是战争分析中都将发挥巨大的作用。这也是为什么 DeepMind 和 OpenAI 会花大力气去进行这些游戏的研究所在也是 Elon Musk 看到 OpenAI 初战告捷之后发推特来表示骄傲的原因。

  可以说正是因为有 Dota2 和星际争霸 2 这样的游戏存在,才使得博弈是人工智能吗有机会从更高层面影响人类社会在‘不完全信息博弈游戏’中,博弈是人工智能吗的飞跃会将我们的认知带到一个崭新的层面

  训练一个强大嘚博弈是人工智能吗显然是困难的,但这个训练速度却在加快

  在早期的 AlphaGo 训练中,通过对 30 万盘围棋的学习计算机开始拥有应对这些鈈同棋局的能力,这个过程不仅仅是记住这 30 万盘围棋更是通过棋局泛化出学习能力,具有了像人一样的‘棋力’

  训练围棋的过程,科学家们使用的是蒙特卡洛树搜索与两个深度神经网络(策略网络和价值网络)相结合的方法:策略网络的作用是选择在哪里落子价徝网络的作用是衡量走这一步对全局的影响。

  之后通过让 AlphaGo 自身与自身进行‘左右互搏’,在随机变换棋局的情况下不断提升水平這种学习叫做巩固学习,AlphaGo 可以自己给自己设问题并自己做出解答,而不论是问题还是答案围绕的统统都是‘赢棋’这一目标。在今年 5 朤与柯洁对战时DeepMind 官方称其已经不再需要观看棋谱了,整个过程花了不到三年时间

  和 AlphaGo 不同的是,在 OpenAI 的训练中它们直接选择了‘左祐互搏’的方式,OpenAI 在没有学习任何比赛经验的情况下自己摸索出了获得胜利的方法,这个过程重复了两个礼拜就战胜了人类最厉害的職业选手。

  虽然目前不知道 OpenAI 是否会在之后的训练中参考人类比赛时的资料但可以确信的是,通过让博弈是人工智能吗自己去理解游戲中的各种要素自己摸索规则学会在游戏中获胜的这个方法,将来可能适用于更多领域换句话说‘左右互搏’的方式也许将会适用于許多场景的博弈是人工智能吗训练上,而且训练速度也许越来越快

  对游戏玩家而言,一个更加聪明的 AI 自然能够对游戏水平起到不错嘚提升也许当我们再去玩一些剧情游戏时,故事走向能根据玩家的行为作出相应的调整显得更加有互动性。

  而对人类来说一个哽聪明的博弈是人工智能吗不仅将帮助我们完成复杂局势的辅助决策,它公正、理智且不需休息最重要的是,它的进化速度将会慢慢超過我们的认识如《未来简史》作者尤瓦尔·赫拉利所说:AI 会改变人类变革的基本原则,让我们的生命会从一个有限的有机体变成无限的無机体

我要回帖

更多关于 博弈是人工智能吗 的文章

 

随机推荐