腾讯绝艺AI下一步将学习AlphaGo zero 自对弈训练
jopen 7年前
<p style="text-align:center"><img alt="腾讯绝艺AI下一步将学习AlphaGo zero 自对弈训练" src="https://simg.open-open.com/show/8841a9ba88d32eb77e2f2465e728727b.jpg" /></p> <p style="text-align:center">棋手童梦成、连笑</p> <blockquote> <p>摘要: 腾讯绝艺 AI 下一步将学习 AlphaGo zero,不再需要学习人类棋手的下法,直接采用自对弈进行训练,当然寻求 AI 产业化落地场景也是重中之重。</p> </blockquote> <p>“感觉自己问题特别多,觉得哪里不太对,跟绝艺相比差距特别大。”棋手童梦成在 12 月 16 日下午,2017TWT 腾讯围棋锦标赛特别挑战赛结束后接受采访时连声说。</p> <p>正如外界预测中的那般,棋手童梦成、连笑在腾讯围棋绝艺挑战赛中双双落败。要知道早在 2015 年 11 月 15 日世界计算机围棋锦标赛中,中国棋手连笑赢下比赛,当时职业棋手普遍认为电脑围棋跟人类棋手差距还很大。不过仅在四个月之后李世石输给 AlphaGo,职业围棋界开始偏向 AI,即便 AlphaGo 刚出来时有很多明显的漏洞,但实力仍比人类强很多。</p> <p>而当 Master 出来后,职业棋手纷纷表示绝望,古力沮丧地感叹道人类棋手要被代替,失业的时候到了。连笑表达了同样的观点,他坦言感觉跟它下两次就找不到方向,觉得很累,感受到 AI 质的飞跃,人类再也战胜不了 AI。</p> <p>身为棋迷的腾讯集团高级执行副总裁卢山在李世石输给 AlphaGo 后便开始组建团队开发绝艺 AI。2016 年 3 月 4 日,第一个 DEMO 完成,棋力在业余 5 级左右,到 3 月下旬,围棋 AI 正式立项,项目名称 weigo,团队也随之搭建起来。</p> <p>2016 年 8 月,绝艺以“虎虎有生气”的 ID 首次在野狐平台(腾讯旗下围棋对弈平台)下棋,8 月 23 日首次战胜职业棋手。在不断的学习中,绝艺的能力不断增强。11 月 1 日,绝艺正式以“绝艺”ID 亮相野狐,11 月 2 日第一次战胜世界冠军江维杰(野狐 ID 若水云寒)。11 月 19 日晚,“绝艺”首次和柯洁交手,一胜一负;11 月 28 日,“绝艺”对韩国第一人朴廷桓 5 胜 1 负。2017 年 2 月 14 日以后,绝艺对野狐帽子(世界冠军和全国冠军)的胜率,已经能够稳定在 90% 以上。并在第 10 届 UEC 杯计算机围棋大赛中全胜夺冠。(注:AlphaGo 没有参与 UEC 计算机围棋大赛)</p> <p>今年 11 月下旬,绝艺最新版本以“符合预期”ID 亮相,达成了 60 连胜的成就,其中,对顶尖棋手获 59 连胜,第 60 盘,绝艺用一盘精彩的自我对局收尾。</p> <p>从绝艺 AI 的胜率,以及对阵棋手包括古力、柯洁等来看,这跟 AlphaGo 升级版 master 的对弈战绩是一样的。12 月 10 日绝艺再赴日本,更是问鼎首届 AI 龙星战,二夺人工智能世界冠军。(注:AlphaGo 升级版 Master 没有参与 AI 龙星战)</p> <p>腾讯集团高级执行副总裁卢山告诉钛媒体:</p> <blockquote> <p>“腾讯绝艺 AI 已经基本接近年初 Master 水平。但现阶段,绝艺 AI 乃至整个围棋 AI 体系都是基于「赢」作为技术升级目的,换句话说,没有办法在中后盘赢定的情况下给出当前最完美的解决方案。”</p> </blockquote> <p>诚然大家所知,2016 年 3 月 9 日李世石和 Alphago 的第一盘棋,下到最后 AlphaGo 已经领先 5 步,但第一盘对弈结束时 AlphaGo 只领先了两步, 这是因为当时 AlphaGo 在赢定的情况下,选择了最稳妥的方式,而不是完美的方式。在走向完美的的道路上腾讯绝艺 AI 还有很长的道路要走,腾讯集团高级执行副总裁卢山认为现阶段已知的机器算法不管用,当围棋 AI 能够实现完美方式时,其意义不亚于 Alpha Go 击败人类,又将是一个新的革命。</p> <p>眼下腾讯绝艺 AI 亟待突破仅靠学习人类棋手的下法,转而采用自对弈进行训练。虽然此前腾讯官方称“绝艺”的学习主要包括人类棋谱数据库和机器自对弈,但腾讯副总裁、腾讯 AI Lab 负责人姚星表示,“绝艺”不同于其他实验室 AI,它得益于世界超一流棋手的指导,通过不断与高手交流及学习成长起来,显然在机器自对弈上还处于早前阶段。</p> <p>早在 10 月 19 日,DeepMind 发布了其最新成果 AlphaGo zero,该算法可以直接采用自对弈训练,相较于之前版本,AlphaGo Zero 的表现和训练效率都有了大幅度提升,仅通过 72 小时内 490 万对局的训练就胜过之前训练用时几个月的原版 AlphaGo,更直观的表现在 AlphaGo Zero 以 100:0 击败了此前版本的 AlphaGo。</p> <p>数据显示学习人类选手的下法虽然能在训练之初获得较好的棋力,但在训练后期所能达到的棋力却与只能与原版的 AlphaGo 相近,而不学习人类下法的 AlphaGo Zero 最终却能表现得更好。</p> <p>知乎网友@知谣其实是德鲁伊猜测这或许说明人类的下棋数据将算法导向了局部最优(local minimum),而实际更优或者最优的下法与人类的下法存在一些本质的不同,人类的下法也许实际’误导’了 AlphaGo。</p> <p>有趣的是即使 AlphaGo Zero 放弃学习人类而使用了随机的初始下法,训练过程也一直朝着收敛的方向进行,而没有产生难以收敛的现象。或许这种自对弈的训练可以让围棋 AI 接近最完美的方式。</p> <p>值得注意的是,在 12 月 13 号凌晨,AlphaGo 代言人谷歌 DeepMind 科学家黄士杰在 非死book 上发帖宣布,他正式从 AlphaGo 团队离开,转到 DeepMind 其他项目。加之在 2017 年 5 月战胜世界围棋第一人柯洁后,宣布不会再继续开发,参加竞技比赛,后续接连公布了对弈的 50 局棋谱、两篇论文,并开发围棋教学软件。</p> <p>可以明确地说,谷歌在围棋 AI 上的研究已经告一段落,而产业化落地将是下一步的重点。此前 DeepMind 也披露过 AlphaGo 团队的下一步计划——研发出应用领域更广泛的算法,包括找、到新的疾病治疗方法、显著降低能源消耗、发明革命性的新材料等。</p> <p>这也将是腾讯绝艺 AI 后续的重点,一方面深化腾讯在深度学习及强化学习方面的前沿 AI 研究,另外一方面,将 AI 能力赋能到腾讯系的具体产品中,诸如医疗影像领域的觅影、微信中语音转文字、声纹识别、天天P图等产品。</p> <p>来自: <a href="/misc/goto?guid=4959011993539968545" id="link_source2">钛媒体</a></p>