无需人类知识，DeepMind 新一代围棋程序 AlphaGo Zero 再次登上 Nature

2017 年 10 月 20 日

比较关注 AlphaGo 的朋友对其中一位应该不会陌生，David Silver 是 AlphaGo 团队负责人，也是上一代 AlphaGo 的主要作者 … 最强 AlphaGo 是怎么炼成的提问：深度强化学习本来就是出了名的不稳、容易遗忘，请问你们是如何让 Zero 的训练如此稳定的 … 在 Zero 的论文中我们提到了各个版本的棋力：AlphaGo Master > AlphaGo Lee > AlphaGo Fan，每个版本都让三子击败了它的前一代。