如何看待 DeepMind 要挑战星际争霸2如何卸载 2

陈经:Deepmind与暴雪开源接口,人工智能挑战星际争霸到哪一步了?
风云学会会员,《中国的官办经济》
关键字: deepmind暴雪公司人工智能星际争霸AlphaGo绝艺神经网络架构
【文/观察者网专栏作者 陈经】
早在2016年3月AlphaGo挑战围棋成功之后,就传出Deepmind下一步计划是在星际争霸上打败人类。
人工智能开发者研究算法很喜欢用计算机游戏。一是研究目标清楚,游戏目标定义得很完善,科研有时最重要的是提出问题。二是最近流行的深度学习需要极多的训练样本,人类的线上高水平比赛很多能够提供足够的样本。三是问题足够难,进展如何通过人机对战、线上测试一清二楚,而不是研究者自说自话。
围棋是“完全信息博弈”(局面摆明,理论上有确定结论)游戏里最复杂的一个,又很有艺术性。在围棋上战胜人类,就实现了Deepmind负责人哈萨比斯的说法,机器自我对弈不断自我学习的方法可以解决一切基于推理的棋类游戏。
这个自学习的框架,能否在“非完全信息博弈”上打败人类,令人非常有兴趣,同时又极有学术价值。星际争霸是一个很合适的测试对象。星际争霸最常见的是两个玩家对战,各自从一个基地开始发展,没有兵力在附近就看不见对方的动作,对方在干什么自己不知道,因此是“非完全信息博弈”。
1998年暴雪公司推出的星际争霸,经过数次升级到“母巢之战”版本,终于成为一款平衡性极好的即时战略游戏,人族、神族、虫族三家兵种与科技特色极为鲜明。在不少玩家的心中,星际争霸具有独特的地位,对战起来战略非常复杂,而且富于变化经常有创新。
韩国人在曹熏铉与李昌镐称霸世界棋坛后掀起了围棋热潮,会下围棋的人比例极高。同样,韩国人也非常热爱星际争霸,将它变成了一项“国技”,创立了职业联赛,出现了许多高水平的职业选手,在WCG(世界电子竞技大赛)上多年来一直是垄断地位,竞技水平比其它国家选手高出一大截。
韩国选手发明了很多新战术,如“拖把流”、“宇宙天空流”、“神教流”,不断将星际争霸游戏水平推向新的高峰。玩家们普遍认为,历史最强选手应该是人称“教主”的人族选手李永浩(网名Flash)。因为Flash的统治力,玩家们认为虽然星际争霸已经很平衡,但在顶尖水平人族应该稍有优势,神族最吃亏。
星际争霸历史最强选手,最终兵器、教主Flash,职业生涯胜率唯一超过70%(图片来源:见水印)
星际争霸有个很大的问题,操作实在是太复杂。除了复杂的对战策略,职业选手们还得有象抽风一样的手速,APM(每分钟操作)经常上400。对战双方一边要采矿挖气开分基地发展经济、科技、兵工厂,还得去多线作战,作战时微操很重要。虫族的“拖把流”就是说前方打得再激烈,还得抽空在后方不断增补农民挖矿发展,这样虫族利用出兵快兵力前仆后继的优势,弥补了单兵战力的不足,“补农”做的不好的对手后期就败下阵来。
这样发展下去,身体反应的对抗越来越激烈。韩国职业选手基本都非常年轻,手速反应跟不上就被淘汰,而且有可能产生职业病。开发商暴雪公司2010年推出了操作简单一些的星际争霸2,2016年韩国星际争霸1联赛停办,可能都与此有关。
能够说明星际争霸复杂性的,除了多线操作,还有“侦察”。有一定水平的玩家都会在很早就从本方基地派出一个农民去探路寻找对方基地(虫族还会让漂浮的房子去碰运气),跑到对方基地侦察对方的发展动向。如果发展方向被针对了,失败可能就非常大了。
例如对方在发展空中力量,自己却没有作好防空准备;或者对方放弃经济短期堆积兵力猛扑过来,自己却农民过多兵力不足防御工事不够,钱多还被打死。侦察经常有运气因素,如猜错探路方向,很长时间才找到对方基地,反应时间不足吃了亏。所以即使强如教主,胜率也只有70%。
通过以上描述,我们能感觉到星际争霸从AI研发角度看,是一个比围棋复杂得多的游戏。围棋就是去推理出胜率高的选点,而星际争霸要决定很多的行动策略,科技与经济发展方向、侦察之后针锋相对、战斗的方向与时机、作战单元的微操。
例如高水平选手都会hit and run(打了就跑)的骚扰战术,甚至上升到战略层面,如人族的雷车提速骚扰,如何应对很烦人。除了“信息不完全”这个特性,星际争霸的博弈决策种类也特别多。而各类决策的影响也长短不一,有的决策要过很长时间才能体现重要性,水平不高的甚至看不懂。同时,与围棋AI相比,星际争霸的AI具有更高的实用价值,如果开发成功,军事指挥等决策事务引入人工智能就是很快的事了。
星际争霸职业解说黄旭东在微博上无礼回应古力,认为星际争霸对电脑太难
正因为如此,星际争霸职业选手对AlphaGo征服围棋后转向星际并不服气,职业解说黄旭东在2016年3月与古力九段发生争执。围棋的推理深度极深,电脑算法能解决围棋非常令人震惊了。
特别是AlphaGo取得突破后短短一年多就迅速战胜李世石、柯洁等所有人类最顶尖选手,这个发展速度让人印象深刻。AlphaGo的算法原理能不能用在星际争霸上让AI的竞技能力取得突破,并不容易回答。
本文仅代表作者个人观点。 请支持独立网站,转发请注明本文链接: 责任编辑:武守哲& 人工智能 & 正文
谷歌DeepMind宣布与暴雪合作 开发人工智能挑战《星际争霸》
腾讯科技讯 据外媒报道,()DeepMind周五宣布,将与暴雪娱乐合作,让其人工智能学会玩《星际争霸II》游戏。DeepMind是一家总部设在伦敦的人工智能公司,2014年被谷歌收购,现在是Alphabet旗下子公司。去年春天,该公司的人工智能AlphaGO击败了围棋九段李世石。该公司一直暗示其可能会挑战实时战略视频游戏。DeepMind之所以选择《星际争霸》作为人工智能研究的目标,是因为它的复杂性:玩家必须做出高级战略决策,同时还要控制数百个元素,并快速做出各种决定。DeepMind研究家Oriol Vinyals认为,跟国际象棋和围棋相比,《星际争霸》更能模拟真实世界的混乱状况。他说:“如果要让代理人程序学会玩《星际争霸》,它需要有效利用记忆,还要能制定长远计划,而且能根据最新信息调整计划。”他认为,如果能开发一套机器学习系统,让它掌握操作《星际争霸》的技巧,这种技术将最终可以用来执行真实世界的任务。在《星际争霸》中,玩家需要从三个种族中选择一个,而每个种族都有自己的优势和劣势。玩家在游戏中需要发展经济,发现资源,开拓新的领土。成功的玩家需要记住关于地点的大量信息,即使这些地点在地图上没有显示。玩家对对手的行动很少有直观的了解,这点跟围棋和象棋有很大区别。此外,《星际争霸》并非回合制游戏,机器学习系统需要面对持续变化的环境。玩家一方面需要制定长线策略,一方面也要运用好短线战术。让软件同时具备这两方面的能力将是一场很大的挑战。和的研究人员此前也曾发表论文,介绍了如何让人工智能系统掌握早期版本的《星际争霸》。能够玩《星际争霸》的机器人软件已经问世,但到目前为止,这些系统还无法击败高级玩家。微软CEO萨蒂亚·纳德拉曾对谷歌的人工智能开发策略表示“不屑”。今年9月,他在亚特兰大的一场活动上表示,微软“不会追求让人工智能在游戏中击败人类”。微软希望人工智能“能解决社会经济中更迫切的问题”。(综合/翼飞)推荐:关注“AI世代”微信号(tencentAI),回复“麦肯锡”可获得《2030年出行市场会如何?》;回复“创业报告”,可获得美国《AI创业指南》;回复“斯坦福”,可获得《2030年的人工智能与生活》。回复“白宫”,可获得白宫《美国AI战略报告》。
[责任编辑:jimmonzang]
您认为这篇文章与"新一网(08008.HK)"相关度高吗?
Copyright & 1998 - 2018 Tencent. All Rights Reserved
还能输入140字2,819被浏览350,750分享邀请回答1.1K92 条评论分享收藏感谢收起44732 条评论分享收藏感谢收起下完围棋打星际 为什么DeepMind的AI机器人那么爱玩? | 爱活网 Evolife.cn
正在加载验证码......
请先拖动验证码到相应位置
已有账号, 立即
已发送密码重置邮件到您的注册邮箱,请立即点击密码重置链接修改密码!
验证邮件24小时内有效,请尽快登录您的邮箱点击验证链接完成验证。若未收到邮件请先确认是否在垃圾邮件中。
确认新密码
确认新密码
30天内免登录
30天内免登录
没有账号? 立即
Follow us on
@EVOLIFE 公众账号
@爱活新鲜播
@EVOLIFE.CN
On Instagram
Follow our feed
下完围棋打星际 为什么DeepMind的AI机器人那么爱玩?
下完围棋打星际 为什么DeepMind的AI机器人那么爱玩?
继今年3月,谷歌DeepMind推出的围棋人工智能机器人AlphaGo,打败职业棋手李世石,震惊世界后,DeepMind又在近日宣布,将与暴雪公司合作,用和人类玩家相同的视角和权限,共同开发《星际争霸2》的AI机器人。也许我们就会在暴雪嘉年华上,看到机器人拿走总冠军的一天。
在AI正式进入职业比赛之前,暴雪和DeepMind将在明年的第一季度发布一个仅供AI开发者们测试的《星际争霸2》的游戏环境,一个界面与普通游戏相同,但更简单、更适合机器学习系统。同时,API会允许AI读取真实的游戏数据,来训练自己,或者用游戏的编辑软件,完成开发者制定的任务。
AI会在游戏初期选择三个独立比赛区中的一个,学习选择采集矿石的时间和地点,学习建地施工的世纪和场所,最重要的,是培养离开所处的视觉范围,对不可见的领域进行探索、绘图和记忆的能力。AI的记忆力、测绘、建立长期目标计划、收集信息等能,都将在一个游戏中得到自我锻炼和提高,最终,将开发出和人类处在同一视角和思维模式的AI机器人玩家。
《星际争霸》复杂的策略
暴雪将使用《星际争霸2》作为AI研究的环境,进行测试、训练,让机器人能够在暴雪的游戏世界中的“真实”世界成长。游戏的环境,有着自己的世界观和构架,也有着自己的隐形条款和视角,能够训练处更加有自由度和智能的机器人。同时,在拥有职业选手的竞技比赛和规则下,AI也能获得即时反馈。
RTS即时战略游戏在暴雪的发展下,不仅吸引了大众玩家,还几乎是建立了电子竞技的概念,20年间,产生了大批以此为生的职业玩家。《星际争霸》对技巧、操控、决策、反映都有着很高的要求,在职业竞技中,《星际争霸》也是最具挑战性的RTS游戏。作为一个复杂的策略游戏,玩家需要同时对资源进行管理、侦查环境以及展开战争。单就是《星际争霸》的画面、速度,就远超过了此前训练的Atari 2600游戏平台,对AI的视觉(像素输入)观察要求更高。
对于暴雪公司和玩家来说,星际AI机器人的引入和培养,可能会给游戏本身带来巨大影响。如果DeepMind的AI被培养成为新一代的顶级选手,那么它的发展速度、游戏方法和思维都可能提高整个职业玩家现有的水平。
对强化学习的挑战
DeepMind所训练的强化学习,就是让机器人能够像人类一样,在没有手动建模和域启发的情况下,通过不断地试错、进行自我奖励或惩罚,从视觉等直接原始输入资料中进行知识的学习和系统的搭建。
2014年,DeepMind推出了成功的深度增强学习算法,让Deep Q-network(DeepMind训练的深度神经网络)通过Atari游戏的训练,在没有经验知识的前提之下进行训练。并且从2D的视觉逐渐突破到3D视觉,训练AI的适应能力、和计划概念等抽象的、高层次的能力。
AlphaGo与李世石的棋局
在这些封闭的游戏环境中,围棋是最困难的,也是DeepMind非常大的突破。AlphaGo在3月击败李世石,将深度增强学习推到了一个新的高度,让AI不再是一个单纯的计算,而是向人类一样拥有“直觉”。此外,DeepMind还利用德州扑克进行训练,由于德州扑克的牌面信息并不完整,玩家需要猜测对方手中的牌,AI在自我的训练、纠错中,也逐渐掌握了德州扑克的技巧。
但是在《星际争霸》的环境中,从玩家不能够察觉的角度,游戏的后台同时也在进行操作,而这些操作都是不可预见的,也就是说,AI和人类一样,将无法获得所有的信息。因此,AI所获得的直接、原始的信息,其实是不足以让它生成出正确的行动的。AI必须在派遣部队,去视线之外的对方阵营进行侦查,以获得完整的信息,并且将这些信息储存在记忆当中。
游戏的分层结构和“隐藏”的信息,就与围棋对环境的全知视角产生了强烈的反差。因为双方阵营都在即时发生着变化,所以每一个决策和动作,必须即时且快速。
全部评论&1条
版权 (C) 2017 爱活网 Evolife.cn 科技进化生活AlphaGo能否挑战《星际争霸》?DeepMind科学家首次详解AlphaGo能否挑战《星际争霸》?DeepMind科学家首次详解经济观察报百家号(图片来源:全景视觉)经济观察网 记者 沈怡然 以开发AlphaGo征服了围棋选手李世石和柯洁而驰名世界的Deepmind公司,2014年就被谷歌以6.6亿美元收购。2016年11月,公司曾宣称将以AI挑战《星际争霸》与玩家对抗。日,DeepMind研究科学家Oriol Vinvals在《麻省理工科技评论》与DeepTech深科技主办的新型科技峰会EmTech China上发表了题为《AI对战星际争霸胜算几何?》的演讲,首次面向中国详细解读了该项目,并就此与麻省理工科技评论人工智能领域资深编辑Will Knight进行了讨论。他提出了数据和任务在研究机器学习和人工智能领域的重要性;并介绍了基于AlphaGo在深度强化学习方面取得的突破性成就;现在在机器学习如何战胜《星际争霸II》的玩家是科学家们正在研究的话题。以下内容摘自Oriol Vinvals现场演讲。——编者按在我还是伯克利大学学生的时候,就玩过《星际争霸》。我和很多伯克利分校的同事在2010年开始做这个研究,当时我们在想的是如何争霸、如何打败敌方。《星际争霸》是我们应用AI技术的一个出发点。在这个过程中,我们看到了很多挑战,因此我们需要很多创新的算法。需要更多的研究人员参与进来,设计一些新的问题和任务,看能否完成。我们会训练整个系统,收集整个星际争霸玩家的行为进行分析。比如哪些走法可能没有优势,哪些玩法过于简单。现在我们会为玩家提供一些打《星际争霸》最简单的走法。游戏《星际争霸II》我们非常感兴趣,这是非常有趣和复杂的游戏,这个游戏基本上是建造一些建筑物以及单位,在同一个地图里不同的组织会相互竞争。在这个游戏中,哪怕只是建造建筑物,也需要做出许多决策。而除此之外,我们还要不断收集和利用资源、建造不同的建筑物、不断扩张,因此整个游戏非常具有挑战性。与下围棋类似,在《星际争霸》游戏中,我们也在使用强化学习。要模仿人类玩这个游戏的方式,但即使是模仿人类点击鼠标和敲击键盘的行为也非常困难。为此,我们引入了一个游戏引擎。和围棋任务最大的不同在于,围棋可以看到整个棋盘,但是在《星际争霸II》中我们通常无法看到整个地图,需要派小兵出去侦查。而且游戏是不间断进行的。整个游戏甚至会有超过5000步的操作。而且对于增强学习,除了上下左右这些普通的移动,我们发现用鼠标点击界面控制不同物体的移动以及不同的行为,也是非常难的。我们发布了这个环境,所有人都可以参与其中。我们也发布了相关的报道,这基本上是一个开源的平台,大家可以测试自己的算法。我们还没有完成过整局游戏,但是完成了操作《星际争霸II》比较重要的7个操作,比如选择一个单位并让它移动过去。我们所使用的算法能做到这一步,而且和人类玩家操作的效果基本一样。而另一些任务,比如建造建筑、收集资源等,仍然是比较难的。我们测试的算法,表现会比随机的环境要好,但和专业玩家还是有一段距离的。有学徒式的学习方式。比如说在玩围棋的时候,有自我的教学模式,从零级开始自学。但是玩《星际争霸》的时候,我们不是从零开始,已经是在一定的基础层上面来进行学习了。另外很多玩家他们还会考虑到一些网上的附加服务,大家会去观察别人玩游戏的方式,他们怎么样去移动鼠标等。我自己也是个玩家,我也会关注别的玩家动鼠标的方法、别人的游戏行为。这对加强学习是一个新的关注点。比如说我自己玩游戏的时候,可能我不能一直获胜。那么我还去观察很多,我输的时候会在游戏的末尾观察哪个人物角色会获胜,通过观察一些专业玩家的行为分析这些游戏过程中的关键点。这也能帮助我们进行模拟学习,以及数据监管式的学习。对于《星际争霸》,我们做开源,一开始是设计到了围棋上。很多环境都有不同的组织模块,围棋是一个相对来说比较简单的逻辑。讲到星际争霸,首先我们必须要从机器学习的角度,去了解不同玩家对《星际争霸》的看法。通过收集玩家的意见就会有更多优势,比如说如何进行复盘,以及收集整个玩家的社群,怎么比较看待第一代和第二代《星际争霸》的版本,同时还有整个游戏对玩家的影响,都可以进行研究。去年11月份我们在洛杉矶开会,也邀请玩家、相关的代理和一些开发者来共同讨论。顾过去几年,我们基于AlphaGo所做的一些突破性的研究,也主要在深度强化学习这个领域。 深度强化学习与监督学习和人类的学习方式相比,还是有一定区别的。比如对于观察本身,算法的观察是需要环境的,没有充分的观察,早期的人形机器人在遇到障碍物的时候往往无法顺利应对而摔倒。我们就会想,能不能建立一个仿真环境来训练这些机器人呢?如果我们有一个很好的环境,我们就可以先去训练它。也就是说我们一定要有一个很完美的环境才能实现我们的目标。为此,我们建立了虚拟场景,并尽可能地提高它的仿真度。也只有在这样的强化环境下,我们才能取得进一步的进展。比如提到应用场景,我们常常会想到游戏。人们在设计游戏的时候总是小心翼翼,以确保玩家可以获得一定的智能化体验。比如AlphaGo参与的围棋有3000年的历史,这是一个非常有挑战性的环境,因为没有一个单一的解决方案能确保带来最好的结果。当然,我们也可以整合不同的能力让它们玩不同的游戏,比如通过训练让机器人学会下国际象棋。我们也有专门下围棋的算法,这时目标变得更加复杂,玩法也变得更加复杂。目前没有一台机器可以通过搜索策略的方法来玩好这个游戏。那AlphaGo是通过什么方法来玩这个游戏的呢?正是强化学习。我们的神经网络可以自动地从数据中学习一些特征。这样我们就可以让它看着棋盘,看人类怎么走,棋盘上也会显示出输赢。也就是说我们不需要展开整个展示走法与输赢的网络,只要展开一部分网络就可以做出很好的模拟。这是一个很好的突破。但这样也不是特别好。因为我们在以人的角度去学习,都要使用数据集来训练。后来我们随机地运行游戏,下过一局之后AlphaGo就可以了解一下比赛是如何进行的,就可以调整整个网络,最终学会下棋。这些网络是在玩游戏的过程中不断训练提升的。AlphaZero随机下棋。经过几天的训练之后,就学会专业棋手的走法了。所以,我们第一版的AlphaGo击败了樊麾,后来下一个版本在韩国和李世石进行了对弈并取得了胜利。再后来我们进一步地训练网络,整个网络比之前强了三倍,赢了柯洁和其他专业棋手。我们是从零开始,一点点积累积数据训练,最后战胜了专业棋手。本文仅代表作者观点,不代表百度立场。系作者授权百家号发表,未经许可不得转载。经济观察报百家号最近更新:简介:在最恰当的时点与您分享最有价值的财经资讯作者最新文章相关文章}

我要回帖

更多关于 星际争霸挑战任务 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信