EMBARGOED UNTIL 18:00 WEDNESDAY 18 OCTOBER 2017
AlphaGo Zero: Learning from scratch
By Demis Hassabis and David Silver
当人工智能AlphaGo成功的打败了围棋世界冠军,不少在AlphaGo开发过程中做出贡献的科学家纷纷出来认领自己的贡献,Maryland research contributes to Google’s AlphaGo AI system,这就是其中一个。工业4.0创新平台关心的是,这个团队还在工业4.0体系中的CPS上做了不少研究,现在分享一份他们的资料——Components, Compositionality and Architectures for Networked CPS,有兴趣的朋友可以自行参考。
本文档的原文标题为“Mastering the game of Go with deep neural networks and tree search”。
对于人工智能来说,围棋是如今最具挑战的传统游戏,因为它有着广阔的搜索空间,并且需要对棋盘中的位置与移动的困难评估。我们在此介绍一种应用电脑围棋游戏的新方法,即通过使用“价值网络”估计棋盘中的位置,再通过“策略网络”选择方向。这些深度神经网络通过将指导人类学习与加强自我学习相结合,来进行训练。它并没有计划未来的需求,这个深度神经网络运用最先进的蒙特卡洛树形检索项目来进行围棋游戏,刺激到了成百上千个随机博弈。我们也介绍了一个新型搜索算法,它包括蒙特卡洛刺激价值与策略网络。通过使用这种搜索算法,我们的AlphaGo程序与其他围棋游戏程序相比有着99.8%的胜率,也以5:0打败了欧洲围棋的冠军赢家。这是有史以来计算机程序在实际围棋游戏中第一次打败了人类专业玩家;也是一项人们认为还需十年才能完成的壮举。