阿尔法狗团队揭秘过去一年的三大升级柯洁称已判若两“狗

2017-05-24 15:26

  柯洁输掉了与AlphaGo的第一战。而在对战前的深夜,柯洁在社交网络上发布了一篇题为《最后的对决》的文章,充满了易水诀别般的悲壮感,其中写道:“现在的AI进步之快远超我们的想象……我相信未来是属于人工智能的。”引发王思聪在评论区:“哟,当时李(世石)和AlphaGo下的时候你那劲儿去哪儿去了?”

  这次柯洁面对的AlphaGo大师版,和去年李世石面对的AlphaGo李版主要有三大不同:首先,AlphaGo大师版摈弃人类棋谱,单纯向AlphaGo李版的经验学习;其次,AlphaGo大师版的计算量只有AlphaGo李版的十分之一,只需在单个TPU机器上运行;最后,AlphaGo大师版拥有更强大的策略网络和价值网络。

  要理解AlphaGo的算法,首先要从1997年击败国际象棋卡斯帕罗夫的“深蓝”算法说起。国际象棋的每一步都会引出下面三十种可能的走法,棋局的就和一棵不断分出三十个分杈的大树一样。而“深蓝”所做的,就是检索完这棵大树上的所有分杈,找出当下最优的那一步。“深蓝”的计算能力因此能达到每秒1亿个,是那个时代的突破性产物。

  席尔瓦说道:“AlphaGo大师版能如此高效运算的最主要原因是,我们使用了最好、最可用的数据来训练它。我们所说的最好的数据不是来自于人,而是来自于AlphaGo自己。AlphaGo现在等于说是自学成才。我们让它自己当自己的老师,而这一代的AlphaGo也会成为下一代AlphaGo的老师。”

  汲取了大量学习的经验,这次与柯洁交手的AlphaGo大师版的策略网络和价值网络也因此更为强大。这大大提高了AlphaGo的运算效率 ,把计算量缩减到对战李世石时的十分之一。从硬件来看,AlphaGo李版在下棋时还需要50个TPU(谷歌专为加速深层神经网络运算能力而研发的芯片),AlphaGo大师版现在和柯洁对战时只需要1个TPU。