DeepMind的AI从AlphaGo Zero进化到AlphaZero

2017-12-8 21:09| 发布者: joejoe0332| 查看: 1122| 评论: 0|原作者: 腾讯科技|来自: 腾讯科技

摘要: 谷歌旗下人工智能公司 DeepMind 一直都热衷于在棋盘上击败所有人类对手。DeepMind 的研究人员本周在预印本网站 arxiv 发表论文(PDF)，称他们的 AI 程序从 AlphaGo Zero 进化到了 AlphaZero。AlphaGo Zero 通过强化学 ...

谷歌旗下人工智能公司 DeepMind 一直都热衷于在棋盘上击败所有人类对手。DeepMind 的研究人员本周在预印本网站 arxiv 发表论文(PDF)，称他们的 AI 程序从 AlphaGo Zero 进化到了 AlphaZero。

AlphaGo Zero 通过强化学习方法训练花了 40 天时间成为超越人类的最强大围棋选手。

这次的新技术 AlphaZero 在学习 8 个小时之后就成功地击败了之前“碾压”人类冠军的 AlphaGo Lee。同时又只用 4 个小时的训练就能击败顶级的国际象棋程序 Stockfish。最后，又经过 2 个小时的训练后击败了日本传统棋类项目的将棋程序 Elmo，三种棋类都已经超越了国际顶级水准。而 AlphaZero 和 AlphaGo Zero 一样，在训练时都只使用 4 个 TPU。

AlphaZero 应用了与 AlphaGo Zero 类似但更通用的算法，它并非专门针对下棋设计，AlphaZero 只掌握最基本的棋类规则，没有专门的策略和战术代码，然后通过名为“强化学习”的训练方法，不断重复训练快速掌握规则，算是之前 AlphaGo Zero 的增强版。

其实这种强化式学习方式本身并不新鲜。今年 10 月创建的 AlphaGo Zero 也使用了同样的方法。但是这次新的 AlphaZero 要比之前更具通用性，因此能够在没有事先准备的情况下应用于更广泛的用途。

值得注意的是，在不到 24 小时的时间里，同一个计算机程序能够通过自我学习的方式实现在三种不同棋类项目同时达到“超越人类”的水平，这是人工智能领域所取得的新成就。

现在 DeepMind 距离公司梦寐以求的通用思维机器目标又近了一步，不过依然面对着非常大的挑战。今年年初，DeepMind 首席执行官 Demis Hassabis 在展示最新成果时表示，虽然该技术未来可能对解决一系列科学问题有所帮助，比如创新设计和药品研发，但是这些用途与棋类游戏相比有本质的区别。团队需要大量的工作来找出如何解决这些问题的方式。

参考：腾讯科技、FOSSBYTES

酷毙

雷人

鲜花

鸡蛋

漂亮

收藏分享邀请

上一篇：IBM与Pivotal将合作改进Spring框架和云计算开发下一篇：为应对人工智能，IBM推出性能强劲的Power 9处理器

快毕业了，没工作经验，
找份工作好难啊？
赶紧去人才芯片公司磨练吧!!

帐号		自动登录	找回密码
密码			注册

DeepMind的AI从AlphaGo Zero进化到AlphaZero

最新评论