#21天打卡游戏人的日常思考# 2015年,Deepmind 的围棋AI程序 AlphaGo 横空出世,首次在无让子的对局中击败人类职业棋手,2016年1月,Deepmind 在 Nature 上发表相关论文“Mastering the game of Go with deep neural networks and tree search”,而后不久的2016年3月,AlphaGo 在五番棋比赛中以4:1击败人类世界冠军李世乭,引发了新一轮的人工智能狂潮。

在这个版本的 AlphaGo Lee 中,从历史对局中提取了3000万样本数据进行初始的监督学习(Supervised Learning)策略模型训练,使得AI可以根据一个给定的盘面判别下一步的走法,并在此之上,采用了强化学习(Reinforcement Learning)的思想对 AI 的走子能力和局面判断能力进行进一步的提升,基于这种方法强化的 MCTS 终于在面对人类职业棋手上取得了突破性进展,在不同的线下和线上比赛击败所有前来挑战人类高段职业棋手,并于2017年初以3:0再度击败人类世界冠军柯洁。

在2017年底,进化版的 AlphaGo Zero 在不依赖任何人类数据的情况下,依赖深度强化学习和自我对弈的方法,21天训练超越之前所有版本的 AlphaGo 程序,彻底明确了 AI 在围棋领域的霸主地位。
全部评论

相关推荐

03-26 15:18
已编辑
华北水利水电大学 Java
点赞 评论 收藏
分享
评论
3
收藏
分享

创作者周榜

更多
正在热议
更多
牛客网
牛客企业服务