当前所在位置:主页 > F假生活 >完爆人类!微软 AI 打破《Pac

完爆人类!微软 AI 打破《Pac

完爆人类!微软 AI 打破《Pac

今年年初,微软收购了一家人工智慧初创公司 Maluuba,Maluuba 公司团队运用强化学习技术(机器学习的分支),在吃豆人小姐游戏 Atari 2600 版本中表现完美。使用这种方法,该团队在这个游戏中得到的分数高达 999,990。

位于加拿大蒙特娄的麦基尔大学(McGill University),从事电脑科学研究的 Doina Precup 副教授表示,AI 研究人员的常常使用各种电子游戏来测试他们研发的系统,但研究人员发现吃豆人小姐游戏是最难攻克的 。

但是,Precup 表示,相比于研究人员所取得的成就而言,她对于研究人员获得成果的过程更加感兴趣。为了在小精灵游戏中获得更高的分数,Maluuba 公司团队将操控小精灵游戏的大问题分解成若干个小问题,然后将小问题分发给 AI 代理解决。

Precup 说「这个分治策略的想法让 Maluuba 公司的研究人员使用不同的系统来实现同一个目标,这是一件非常有趣的事情」,她还说到:「这个想法类似于一些大脑如何工作的理论,它可以更大程度地影响 AI 代理教学,从而利用有限的资讯来完成更为複杂的任务。倘若能够完美利用分治策略,那人工智慧将向前跨越一大步 ,这真的令人感到尤为兴奋。」

Maluuba 团队将这种分治策略称之为 混合式奖赏架构 (Hybrid Reward Architecture),这个方法使用了 150 多名人工智慧代理,每个代理与其他代理相互独立地精通小精灵。比如,一些代理成功找到一个豆子将获得的奖励,而另外一些代理由于幽灵的存在必须待在原处。

然后,研究人员在小精灵中创建了一个顶级代理,就像一家公司的高级经理一样,顶级代理能够获得所有代理的建议,综合分析后由顶级代理来决定吃豆人小姐该如何移动。

顶级代理会根据选择各个方向前进的代理数量的大小来决定移动方向,但同时也需要考虑到代理想要往某个方向移动的反应强度。例如,如果 100 个代理想向右边移动,因为向右边走是他们的最佳路径,但有 3 个人想要向左边移动,因为右边有一个致命的幽灵,那这 3 个代理向左边移动的反应强度明显强于其他代理,考虑到幽灵的存在,顶级代理应该决定向左移动。

Maluuba 公司的研究室经理 Harman Van Seijen,对于他们的最新研究成果发表了一篇文章,文章中写到,当每位元代理都果断地做出选择,顶级代理综合利用每个代理的资讯后做出最佳选择,那幺在小精灵游戏中就可以获得最好的结果。Harman Van Seijen 说:「虽然每个代理只关心一个特定的问题,但是他们之间有很好的相互作用」。

完爆人类!微软 AI 打破《Pac为什幺AI 主要研究攻克小精灵

需要运用最先进的 AI 研究方法来击败类似于上世纪 80 年代 Atari 小精灵这样的简单游戏,这看上去很匪夷所思。但是 Maluuba 公司的专案经理 Rahul Mehrotra 表示, 使用演算法来赢得这些简单的电子游戏其实非常困难 ,因为在玩游戏的过程中可能会遇到的各种各样的情况。

Mehrotra 表示:「许多从事人工智慧的公司构建游戏智慧演算法,因为公司希望人工智慧能够像人类一样拥有打游戏的技能。」

Steve Golson 是小精灵街机版的创始人之一,他说到,小精灵最初定位是街机游戏,希望游戏对人们有持续吸引力而走出宿舍,所以小精灵游戏必须掌握人类不可完全征服的游戏程式。

完爆人类!微软 AI 打破《Pac

运营谘询公司 Trilobyte Systems 的 Golson 说到,他们故意设计了比普通小精灵更加不可预测的游戏,所以玩家们很难打通关。複杂的游戏使得研究人员试图使用 AI 代理来对随机环境做出理想的反应。Golson 还说到:「使用 AI 代理来通关小精灵是可行的,但由于游戏的随机性,所需要设计的 AI 程式将尤为複杂。」

强化学习

对于在不断发展的强化学习领域工作的研究人员来说,这种不可预测性极有价值。在 AI 研究中, 强化学习是监督学习的副本,是一种更常用的人工智慧方法 ,它能够让系统在做任务时变得更好。

通过强化学习,代理对其每个动作都採取积极或消极的反应,通过不断地试验和犯错误来最大限度地获得积极反应或奖赏。

具有监督学习的 AI 系统,通过给出良好和不恰当的示例,来学习如何在对话中做出适当的回应。而强化学习系统则是通过系统在对话中做出正确的回应,而后获得更高级别回馈的方式来学习对话。

AI 专家认为,强化学习可以用于创建 AI 代理,这样的代理可以做出更多的决定,能够完成更複杂工作,为人们提供更高水準的服务。Mehrotra 表示,他们开发的能够通关小精灵的系统,就可以为人们提供更好的服务。它 可以在特定时间或任意时间帮助公司的销售部门预测商品的潜在客户 。该系统可以使用多个代理,每个代理代表一个客户,可以预测很多重要因素,例如:哪些客户会续签合约,哪些合约对于公司是有价值的。

有了 AI 系统预测的説明,销售主管可以把更多的时间放在潜在客户身上,如此会提高出售机会,因为销售人员的目光已经瞄準了最容易下订单的客户。

Van Seijen 表示,他希望这种分治策略可以被用在 AI 的其他研究领域,如自然语言处理领域。他还说到:「分治策略使人们在解决真正複杂的问题的方式上取得进步 。」


相关推荐