炼数成金 门户 商业智能 人工智能 查看内容

星际争霸界也出了位“带路党”,当年的冠军正帮谷歌AI击败人类

2017-11-27 11:39| 发布者: 炼数成金_小数| 查看: 19475| 评论: 0|来自: 量子位
摘要: 1990年代,十几岁的Oriol Vinyals(维纽斯)成了西班牙《星际争霸》全国冠军。他之所以玩这款科幻策略游戏,是因为比其他打打杀杀的游戏更需要动脑子。维纽斯说:“没上大学之前,这款游戏就让我在生活中怀有更强的 ...
网络 工具 神经网络 人工智能 AlphaGo DeepMind
1990年代,十几岁的Oriol Vinyals(维纽斯)成了西班牙《星际争霸》全国冠军。

他之所以玩这款科幻策略游戏,是因为比其他打打杀杀的游戏更需要动脑子。维纽斯说:“没上大学之前,这款游戏就让我在生活中怀有更强的战略思维。”

他的战略思维的确获得了回报:在巴塞罗那学习了电信工程和数学之后,维纽斯去过微软研究院实习,获得了加州大学伯克利的计算机博士学位,接着加入谷歌大脑团队,开始从事人工智能开发工作,然后又转入谷歌旗下DeepMind团队。

他又跟“星际争霸”打起了交道。

但这一次不是他亲自玩,而是教给机器人怎么玩。在人工智能成为全球最优秀的围棋选手后,星际成为了下一个攻克目标。

DeepMind与《星际争霸2》的开发商暴雪展开合作,让人工智能研究人员可以通过之前的数百万场对战进行学习。他们的目标之一,就是开发一套足够好的人工智能系统,使之可以击败人类选手。就像DeepMind的AlphaGo击败李世乭、柯洁一样。

然而,最终的目标是将其中使用的技术应用到现实世界,而不是让它始终停留在游戏里面。

“我们正在试图理解人类以及我们大脑的工作方式。”暴雪首席软件工程师Jacob Repp说,“如果我们能够得到这种高质量的数据流——人类玩游戏时的原始输入以及由此产生的结果——那就能成为研究人们行为的有用数据。”

对人工智能研究人员来说,《星际争霸2》是个颇为有趣的挑战。

与国际象棋或围棋不同,星际玩家面对的是不完美信息博弈。“战争迷雾”意味着玩家的规划、决策、行动,要一段时间后才能看到结果。

暴雪已经使用神经网络来获取玩家技能,而依据则是他们利用键盘和鼠标输入的信息、他们排兵布阵的方法、他们玩游戏时的效率。这些信号都可以用来让游戏本身更加有趣,或者让对战双方更加均衡。

但要让人工智能玩《星际争霸2》,就必须让他们能“看到”游戏里的3D地图,并快速而准确地加以解读。

DeepMind的首次测试,先在雅达利游戏上训练神经网络和AI智能体(Agent),然后再将其应用到《星际争霸2》上。即便没有进一步的指令,用雅达利游戏训练的人工智能也可以在地图上随意走动、移动镜头、排兵布阵。

“这的确可以在一定程度上发挥作用”,Viyals说。


在加入DeepMind之前,维纽斯开发了一项图片搜索功能和Gmail的“智能回复”,后者可以根据邮件内容推荐相关的回复。该团队还在从事语音识别,让人工智能记住不同人的对话,从而在下次听到这个声音时识别出来。

“在《星际争霸2》里,也要应对这些问题。”维纽斯说。一个玩家可能看到对手的侦察兵,然后又消失在视野中。对人工智能来说,记住他们遇到的东西,并且理解这可能表明敌人正在某个地方修建基地,就需要使用LSTM神经网络。

维纽斯解释道,电脑可以把某个数据的记忆保留数十年的时间,但这种记忆不仅需要保存,还要在未来针对某个信息调取出来。

“在《星际争霸2》中,这非常重要,但却很微妙,可以将未来与过去联系起来。”他说,“很难建立因果关系,因为游戏中会发生很多事情。”

尽管自己也是星际玩家,但维纽斯表示,DeepMind的研究并没有使用之前的技术作为假设。

借助所谓的强化学习技术,神经网络可以直接解读他们获取的原始信号——在这个案例中,就是《星际争霸》过往的对战录像。

SC2LE
今年8月,DeepMind和暴雪联合发布了第一篇AI打星际的论文:《StarCraft II: A New Challenge for Reinforcement Learning》。

这篇论文的第一作者,就是维纽斯。

论文介绍了暴雪和DeepMind合作推出的SC2LE工具包,其中包括:

机器学习API:由暴雪开发,将研究人员和开发人员接入游戏,并自带首次发布的Linux工具包。至此,Windows、Mac与Linux系统均可在云端运行。

匿名游戏回放数据集:包含65000多场游戏记录,在接下来的几周将增加至50万场,帮助实现智能体间的离线比赛。

开源的DeepMindPySC2工具包:方便研究人员使用暴雪的特征层API训练智能体。

一系列简单的增强学习迷你游戏:帮助研究人员在特定任务上测试智能体的性能。


概述开发环境的论文:记录了迷你游戏的初始基线结果、监督学习数据以及智能体间完整的对抗记录。

DeepMind希望通过此举,推动更多研究社区和开放工具的开发。

围棋AI“带路党”


维纽斯的故事,让量子位想起他的同事:黄士杰、樊麾。

黄士杰和樊麾都是从小就对围棋产生了浓厚的兴趣。2003年,黄士杰从台湾师范大学毕业获得硕士学位,毕业论文:《电脑围棋打劫的策略》。

一年后,黄士杰开始攻读博士学位。2007年,黄士杰成为台湾师范大学围棋社首任社长,并带领同学征战台湾大专杯围棋赛。

黄士杰的棋力是业余六段。

除了在现实世界下围棋,黄士杰还一直在研究围棋程序。2006年,黄士杰独自开发的第一款围棋程序AjaGo,获得围棋大赛第11名;他参与的中国象棋程序Elephant(大象),获得大赛的铜牌。

2010年,黄士杰在Rémi Coulom的指导下,开发出围棋程序Erica,并在围棋比赛中击败日本的Zen,获得当年的冠军。这在当时可算了不起的成就。Rémi Coulom是另一个围棋程序Crazy Stone的作者。

2012年,黄士杰加入DeepMind。然后开始AlphaGo的研发。

2015年,黄士杰与樊麾相遇。当年10月,樊麾受邀前往伦敦与尚不为人所知的AlphaGo展开对战。结果五战全败,输的樊麾一度怀疑人生。

樊麾是从小学棋的职业选手,曾经入选国少队,但后来自知与国内顶尖高手实力有差距,所以少年时选择远走欧洲,成为欧洲围棋冠军,法国围棋队总教练。

败给AlphaGo后,樊麾也加入了DeepMind,和黄士杰一样,成为围棋AI的“带路党”。后来的故事大家就熟知了,AlphaGo一路过关斩将,站在围棋之巅。


当然星际AI的研究,还在非常早期的阶段。最近在首尔的一场竞赛中,《星际争霸》职业玩家宋炳具用了不到半小时就轻易击败了4个人工智能机器人。但他也承认,它们的防守打法“有时候让人震惊”。

虽然过去20年维纽斯玩《星际争霸》机会并不多,但这位前西班牙冠军却对自己的《星际争霸》技术满怀信心。

“人工智能现在能打败我吗?我觉得还不能”,维纽斯笑道。

欢迎加入本站公开兴趣群
商业智能与数据分析群
兴趣范围包括各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识
QQ群:81035754

鲜花

握手

雷人

路过

鸡蛋

相关阅读

最新评论

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

  GMT+8, 2017-12-17 20:02 , Processed in 0.155560 second(s), 26 queries .