AI 发展历程概述   -- 奇略专栏


云天外 写于 2021年7月7日 19:36


围棋的变化数对于目前看起来强大无比的计算机资源,仍然是一个无穷一般的概念。AlphaGo可以打败人类顶尖水准棋手,但是还远远达不到“最优解”的程度。

AlphaGo对于棋界无疑是一阵巨大的革新浪潮,现在总能在棋手聚会里看到非常精彩的新招拆解,也就是戏称为“狗招”的大局观极强的下法后续的定论探讨。

这篇文章为了帮助大家理解,做了很多比喻,希望大家能从这篇文字里开始理解AlphaGo。


很多朋友听说过国际象棋程序 -- 深蓝。在1997年深蓝击败了国际象棋特级大师卡斯帕罗夫。就在当时,围棋程序的水平仍然是k级,也就是不到业余初段。截止2015年,全世界6000多种完全信息博弈游戏中,只有围棋程序无法抗衡相关领域的职业选手。

等等,什么是完全信息博弈游戏!?

完全信息博弈游戏的定义 :是指每一参与者都拥有所有其他参与者的 特征 、策略 及 得益函数 等方面的准确信息的博弈。

围棋、象棋 落下子来,手中不藏牌,盘上规则没有变数,胜负在于面对 于人脑近乎于无穷的变化数量,做一个优化的策略、合理聚焦、深度速算。对手隐藏的陷阱招数,全部隐含与已经落在盘上的棋子之间。


(成名多年的围棋高手也会常常被妙算无穷的好棋深深折服,围棋的魅力正源于此)


非完全信息博弈游戏,对比完全信息大家想必已经有大致了解了。桥牌,暗棋,各种带有战争迷雾的游戏。


(这个策略,嗯,保留意见吧,墨镜挺帅的)


『围棋人工智能为什么来的这么晚』

从1997年到 2015年,近20 年的时间里,各类硬件发生了质的飞跃,我们不再有人指望囤积 BP机(寻呼机)还能赚钱,一部手机已经可以轻松运转类似无尽之剑这样精良的作品。为什么过了这么久,人机对抗仍然需要调用非常夸张的计算资源?

▶▶围棋人工智能的难度主要体现在两方面:

  1. 搜索空间巨大:合法的围棋的变化(10^170)大于宇宙中原子数(10^80)。

  2. 局面判断难:多人发表论文,说明,不可能有一个很好的静态局面评估函数。局面评估函数。静态局面评估函数(可以简单类比中国象棋残局) 动态局面评估函数(类比中国象棋残局 往前推算)。

(这两点暂且放在这里,之后细表↓)



▶▶▶我们把围棋人工智能的发展分为三个阶段:

第一阶段:以模式识别和人工启发式算法为主,水平低于业余初段。

第二阶段:以蒙特卡洛搜索树算法为代表,水平最高达到业余5段。

第三阶段:以机器学习算法为突破,战胜人类职业棋手。


▷♫♬♩♫ 第一代围棋人工智能 ♪♫♬

第一个完整下完一盘棋的程序,是1968年, 美国人Albert L. Zobrist,作为他的博士论文完成的。

不过,接下来的20年里,围棋AI们即使是对上刚入门的初学者,也难求一胜。

1987年,应氏围棋基金会悬赏百万美元,寻求能够战胜职业棋手的围棋AI。这个悬赏分很多级,最低一级奖金,是十万新台币,相当于四千美元,奖励给第一个能够受让十六子战胜业余高手的程序。

1987年的百万美元啊! 当时程序的水平,可想而知。


(让十六个就是这样,黑棋关键的地方先摆上十六个,然后黑白一人一步比拼谁的领地大)

一直到1990年,一位中国人,中山大学化学系教授陈志行,在退休以后,花了几个月的时间编写了名为“手谈”的程序。手谈问世以后几年内,实力快速增长。

1995年,手谈连续拿到了受让十四子和十二子战胜业余高手的奖金。

1997年,手谈再过业余高手的十子关。这三次突破共计为陈志行带来了六十万新台币的奖金。同时,在1995至1998年,手谈在两项计算机围棋世界赛中七连冠,在整个九十年代鹤立鸡群,独占鳌头。


(这张照片与手谈软件 都是与我们这一代棋迷一起长大的回忆)


◤◤手谈的秘密武器◢◢♜

前面讲到,围棋难,一难在搜索空间大,就是不知道往哪里下,二难在局面判断难,就是看不出是要赢还是要输。陈教授为了解决这两个问题,祭出了一个秘密武器——“势力函数”。


请看这个图。

“势力”是围棋术语,说白了,就是一个棋子对周围空间的影响。陈志行认为,这种影响是可以量化的。比如,这图中有一颗黑子。离黑子最近的四个点,用圈标出的,受到的影响力是4. 稍微远点,用×标出的四个点,受到影响力是3. 用方块标出的,受影响力是2。三角形标出的,受影响力是1. 更远的地方,就没有影响了。当然,棋盘上有很多个子,位置不同。我们把所有棋子的影响力叠加起来,就可以得到,棋盘上的某一个空点,到底是黑棋的势力范围,还是白棋的势力范围。

这样一来,形式判断的问题就有了一个初步的解决方案。

对于这个图上的局面,

我们看下面这个图。当然,这个图不是手谈的形势判断,因为这个软件太旧了。不过直观上是相似的。


(标字母的请忽略)

比如我们有这么一个局面。棋盘中间标有字母的几个黑棋请大家忽略,这些棋不在棋盘上。那么手谈会怎么判断呢?看下面这图


很直观的,更靠近白棋势力范围的,比如左上角,白色的方块几乎都涂满了,表示这是白棋的确定地。而右下,黑方的确定地,也是一样。而处于两者之间的,比如棋盘左边中间,黑白势力范围的交界处,也可以看出很明显的过渡。这就是一个不太坏的静态的局面评估函数。


所谓静态,就是给你一个局面,不用考虑这个局面会怎么发展,就能判断。


同样地,这个影响函数也能初步解决这棋该走哪的问题。比如说,陈志行经常举的一个例子。当年手谈的对手,其它程序们,面对一个棋型,总是懵逼。就是下面这个棋型:


(小棋盘的例子 ¶)

黑棋带圈的这两个子,构成一个棋型,叫做小飞。现在白棋走在1这个位置。对于下围棋的人来说,黑棋接下来的应法是常识。


(这种走了被别人应对了自己就尴尬的叫做 臭棋)

黑棋应该挡住。这样黑棋三个子连成一片,白1已经基本成为废子。

其它程序们不知道,但是手谈知道。对于上面那个局面,手谈的势力函数就发威了:根据一个局部影响函数的分布,手谈不难识别出,这是一个黑棋小飞,白棋威胁要切断黑棋的棋型。这就是一种所谓的模式识别。那么一旦遇到这种情况,我挡住就好了。好,到了实战的时候,手谈遇到对手,都能挡住小飞。而对手遇到手谈,就是下面这种情况。


(被白棋冲穿了局部很不好收场)

黑方中间这两个子被白方切断。黑棋被撕裂,黑棋形势瞬间恶化。难怪手谈战无不胜。

但是。我必须说的是。这个势力函数,不是万能的。围棋有太多复杂的局部棋型,手谈对于识别更多的棋型无能为力。同时,基于势力函数的形势判断,也并不是很准确。这就限制了手谈的进一步提升。

陈教授的毕生目标是让手谈提升到受让陈教授自己九子能获胜的水平。

陈教授是业余高手,比刚才提到的,应氏基金会派出的测试手谈的棋手,水平还要高一些。能够受让九子战胜陈教授,可以说基本上达到了业余初段的水平。让九子是这么摆的:



(以前让新手好多次9子,也想起很久远的以前被让九个,被折腾的摸不着头脑)

黑棋先摆九个,然后白棋落子和黑棋比拼领地大小。

可以看到黑棋优势还是很大。可是,直到陈教授在2008年去世,手谈也没能过陈教授的九子关。实际上,在1997年后,围棋程序陷入了一段发展缓慢的时期。这就有了下面这个故事,“初段围棋赌局”。

1997年,与深蓝战胜卡斯帕罗夫同一年,工程师Darren Cook, 向计算机围棋从业者,包括陈教授,和几位职业棋手,提出了一个问题:什么时候才能有围棋程序达到业余初段水平? 大家的答案五花八门。有说三年以后的。陈教授说2020年。有个职业棋手说要到23世纪。

http://www.smart-games.com/worldcompgo.html

(这里看 World Computer Go Championships)



【初段赌局】

其中最劲爆的是,一位计算机科学家,名叫John Tromp的回复,到2011年,不可能有围棋程序战胜我。John是欧洲业余一级,比业余初段只低一个级别。而且,John为自己押了一千美金。这比某位微博大V说川普赢了大选就吃翔,最后躺地打滚,要可靠多了。Darren欣然接受赌局。

那么这一千美金的赌局,最后结果如何呢?

我们要先讲完第二代人工智能。



▷▷♬♬♫♪♩ 第二代围棋人工智能

一个下棋程序,可以归结为一个问题:

也就是,在某一个局面下,轮到自己下棋,你要下在哪里。

围棋盘上,有许多选择,所以这个问题就归结为,这么多的选择,哪一个是最好的,或者说,比较好的。

极小化极大搜索算法 Minimax tree search

alpha–beta pruning


(井字棋大概 那么示意一下)


最简化的情况做一个讲解 ✔



假设我们对每个局面有一个评分,评分越高代表对自己越有利。相反的,如果评分低,代表对对方有利。

当轮到自己落子时,自己面临两种选择A1,A2。自己选择A1后,对方可以选择B11,B12。自己选择A2后,对方可以选择B21,B22。

评分:

B11: 3

B12: 5

B21: 0

B22: 10

Minimax选择A1。


(乱入一张图,五彩斑斓,还有全局(global)感)


(围棋的选点很多,但是赋值却极为困难,而且随着局面变化会产生变化)

那静态和动态都是人为赋予分数来计算,实际执行的时候会有什么明显差异么?

静态评估,就是只看棋盘的当前状态。动态评估,还需看除当前状态外的其它状态。比如用蒙特卡洛模拟大量棋局进行评估。

Monte-Carlo methods

第一代围棋人工智能的局限:局面评估相比国际象棋,围棋的局面评估非常难。大家可能了解,国际象棋里面的后和车,威力很大。如果一方多了一个后或者多了一个车,一般说来局面一定对那一方有利。当然还要根据子力位置好坏进行一定调整,但是一般说来利用子力价值评估,已经能得到相当好的局面评估。但是对于围棋,并不能这样套用。因为每一颗围棋棋子都是一样的,只是在棋盘上出现在不同位置,才出现了不同棋子之间的价值差别。而这对于电脑来说,是非常难以判断的。

MCTS 蒙特卡洛搜索树

蒙特卡洛是摩纳哥公国的一座城市,位于欧洲地中海。蒙特卡洛是摩纳哥的历史中心,也是世界著名的赌城。蒙特卡洛算法蒙特卡洛方法(英语:Monte Carlo method),也称统计模拟方法,是二十世纪四十年代中期由于科学技术的发展和电子计算机的发明,而被提出的一种以概率统计理论为指导的一类非常重要的数值计算方法。是指使用随机数(或更常见的伪随机数)来解决很多计算问题的方法。

(蒙特卡洛是这样的城市)

举例来说:假设我们要计算一个不规则图形的面积,那么图形的不规则程度和分析性计算(比如,积分)的复杂程度是成正比的。蒙特卡洛方法基于这样的思想:假想你有一袋豆子,把豆子均匀地朝这个图形上撒,然后数这个图形之中有多少颗豆子,这个豆子的数目就是图形的面积。当你的豆子越小,撒的越多的时候,结果就越精确。借助计算机程序可以生成大量均匀分布坐标点,然后统计出图形内的点数,通过它们占总点数的比例和坐标点生成范围的面积就可以求出图形面积。



在赌场中有很多数学概率计算的项目。蒙特卡洛算法在处理有些问题时候相当有效。故因此得名。 蒙特卡洛搜索树算法是一个基于蒙特卡洛思想,解决围棋局面评估问题的算法。简单的说,对计算机来说,围棋局面很难评估孰优孰劣,因为没有定型的地方很难判断属于哪一方。但是,如果棋局已经下完了,那就可以数子,来判断谁赢了。那么,对于一个没下完的局面,就电脑模拟,把他下完。每模拟一次,就得到一个最终的胜利结果。假如对于一个未完成的局面,模拟10000局,其中黑方赢了5500局,白方赢了4500局。就认为此局面下黑方稍优,认为黑方胜率55%。 这种算法好处在于:

  1. 充分利用了电脑的计算能力。模拟的局数越多,得到的结果也就越精确。

  2. 这种算法是天然支持并行计算的。因为不同的模拟之间没有逻辑的因果联系,可以放到不同的机器上跑,最后再综合结果。

这种算法也有其缺点:

  1. 招法只是根据统计结果来决定,有时会缺少前后逻辑关联。

  2. 打劫,尤其是连环劫。打劫有很强的前后关联。

  3. 平均值和最大值的差异。举例来说:(要先说minmax search)

  4. 现在有A1,A2两种选择:A1下面的是(3, 5),A2下面的是(0,10)。显然应该选A1。因为如果我选了A1,我的对手会选3。如果我选B,我的对手会选0。0比3要小,所以我会选A1,这样对我更有利。但是如果我用蒙特卡洛搜索树算法呢,我看了下A,有两个可能,平均值是4。看了一下B,有两种可能,平均值是5。这样看上去B更好。

  5. 不同的分支,搜索的深度应该并不一样。比如,思考A1招法时候,五步棋之后,明显发现不好,后面的就不需要看了。而A2招法,十步棋之后,也很难说好与不好,还需要继续往下计算。这时候如果平等的看待每个后续招法,是不合适的。

UCT 上限置信区间算法 In 2006, a new search technique, upper confidence bounds applied to trees (UCT), UCT算 法是一种特殊的蒙特卡洛搜索算法,它由树内选择策略、缺省仿真策略和仿真结果回传三部分组成。

  1. 时间可控,解决MCTS的第3个缺点,动态分配资源。好钢用在刀刃上。如果算出去几步,一看情况不妙,马上收手,去算其他节点。

  2. UCT 算法最后的作为搜索结果的节点以及次优节点一定是经过多次抽样的具有较高估值可信度的节点。

--------------------------------------------------------------------------------------------------------------------------

在AlphaGo出现之前,最成功的围棋人工智能叫做Zen,中文叫做天顶围棋。


§ 第三代人工智能♬♫♫♪♬

我们先揭晓一下之前提到的,“初段围棋赌局”的结局。在第二代人工智能兴起以后,围棋AI进步迅猛。2008年,采用蒙特卡洛树搜索的MoGo受让九子战胜金明完九段。次年,MoGo受让六子战胜简立辰初段。业余初段似乎已经不是AI们的对手。不过,John也不是坐以待毙。在过去的十几年里,John已经从业余1级进步到了业余2段。赌局最后期限临近,悬念竟然不跌反增。2010年末,John Tromp 与 当时的一流程序多面围棋大战四局。结果令人意外,John 以4比0横扫多面围棋。并且,从进程来看,多面围棋毫无还手之力,可以说是惨不忍睹啊。John就此赢得一千美元的赌金。

不过Darren不服。明明程序们早就超出了业余初段的水平,只不过是你John也进步了。可是你一个人的进步,能有程序们的进步快?两年以后我们再比一场,这次不求你赌,只求你出战。

2012年中,John再次站在了pk台上。这一次他的对手是Zen。Zen当时已经在西方围棋圈内小有名气。在KGS上,每天都有业余高手排着队挑战Zen。我记得当年我也和Zen下了十几局。印象中,快棋输得多。慢棋大致相当。当时我就觉得John一点机会都没有啊。结果,John居然赢下了第一局。不过,Zen没有再给John机会,连胜三局,从而赢得了这个系列赛。“初段赌局”就此告一段落。

同年,Zen在日本举行的电王战,也就是计算机围棋的大赛中,夺冠。随后Zen与武宫正树对抗。武宫正树九段,日本前超一流棋手,以“宇宙流”,也就是重视外势的风格,受到棋友的喜爱。结果Zen连破武宫正树的五子关、四子关,也就是分别受让五子和四子战胜武宫正树。这标志着围棋AI达到了业余高手的水平。

不过,回看当年视频,可以看出武宫对局心态相当放松,明显是用下指导棋的态度。棋局内容中武宫试探较多,有时也并未祭出最强下法。所以这个让四子,需要打一个小小的折扣。

就在圈内一片乐观之时,围棋AI的发展却又陷入了停滞。2012-2015年,围棋AI进展缓慢。

2015 年末,在北京三里屯,世界围棋人工智能大会,程序石子旋风力挫Zen夺冠。在随后的人机对抗中,中国的连笑七段——连笑,处于当打之年的一流棋手。连笑让石子旋风四子和五子局皆胜,让六子局才败于石子旋风。在棋局中,石子旋风再次暴露出第二代围棋AI行棋缺乏逻辑性的问题,特别是一个连环劫,被连笑耍得团团转。

赛后,国家队总教练俞斌说,围棋AI战胜职业棋手,恐怕还需要一百年。即使是参赛程序开发者们的“乐观估计”,也认为这需要15-20年。

当时没人想到,有一个程序正在飞速成长,并已经战胜了一位职业棋手。

这个程序,现在大家都知道了,就是AlphaGo.


♕♕ AlphaGo ♛♛

那我们接下来介绍AlphaGo.

大家或多或少可能知道,阿法狗采用了一项核心技术,DCNN,也就是深度卷积神经网络。我们今天不展开讲神经网络。不过,为了方便理解,我还是给出一个神经网络的直观理解。


人工神经网络,模拟的是人脑中的神经网络。成年人的大脑里有一千亿个神经元,而这一千亿神经元构成的网络能够实现无数不可思议的功能。一个普通的人工神经网络,通常能够实现人脑功能的很小一部分。我们可以把它看成一个黑箱,比如下面这个图。


具体到AlphaGo采用的神经网络,我们可以把它看成一个只会下棋的大脑。

一个只会下棋的大脑是什么样的呢?我们可以用人类棋手下棋时的思维方式类比。请看这个图。


我们下棋的时候,面对一个局面,就好像给大脑输入了信息。接下来,大脑处理这个信息,得到两个输出。一是候选招法。这个局面,根据我十几年下棋的经验,大概有ABCD这么四种走法。二是形势判断。这A招法,我获利10目。B招法,获利3目。C脱离战场,D方向错误。注意,这里的判断既有定量的,也有定性的。这是人类棋手判断的特点。最后我确定,选择招法A,并且默默再做一次判断,确定自己有优势。

其实AlphaGo和人类的思维方式十分接近。AlphaGo的神经网络主要分为策略网络和价值网络。

策略网络其实就是模仿人类给出候选招法的过程,而价值网络就是模拟人类形式判断的过程。接下来我们具体展开。


策略网络

策略网络的始祖,是监督学习策略网络,也就是Supervised Learning Policy Network。我们用一个棋手来做比喻,藤泽秀行。藤泽秀行,已故的日本名誉棋圣。在座的部分棋迷也很熟悉,秀行在日本以私生活混乱和酗酒著称。既有所谓“家中红旗不倒,外面彩旗飘飘”,也有在中国会见邓小平时,一身酒气,满嘴胡话的轶事。当然,我的重点是,藤泽秀行当年号称“前五十手天下第一”,说的是藤泽秀行布局功夫了得,选点有独到之处。这和监督学习策略网络很像。

监督学习策略网络,是从人类业余高手的棋谱中挑选出三千万个局面学习得到的。学习的结果是,这个网络在大部分时候能够像人类的业余高手一样选点,总体有业余3段的水平,就好像一个超低配版的藤泽秀行。



这个低配版的藤泽,另一个特点就是“慢”。藤泽秀行下棋也慢,他曾经有一手棋长考三小时,然后怒屠对手大龙的经历。而低配版的藤泽秀行呢,一秒钟只能下三百步。你可能会问,一秒钟三百步还算慢?别急。跟接下来这位比,这个藤泽还真算慢的。




快速走子

英文Fast Rollout. 我们也拿一位棋手打比方,罗洗河。

罗洗河,中国职业九段,绰号神猪。当年罗洗河曾串烧五位韩国顶级棋手,并在决赛战胜石佛李昌镐,夺冠的同时,也终结了李昌镐的霸业。罗九段以幼年测智商160 闻名棋界,下棋时落子飞快,经常只用对手的一半时间。而我们的快速走子网络,比神猪罗洗河更快。快速走子,一秒能走五十万步,简直就要上天。不过,快,就要牺牲下棋的质量。当年我学棋的时候, 有一段时间也下得飞快。我的老师就斥责我,“你这下得是围棋吗?你这简直就是摆石子!” 快速走子,实力也和摆石子状态的我差不多,业余2段水平。

但是这个水平也不简单啊。第二代围棋AI为什么遇到瓶颈?很大程度上就是因为在蒙特卡洛搜索树的模拟中缺少一个能把色子投得又快又好的人。现在我们有罗洗河。它比策略网络快一千倍,实力却差不了太多,恰好是负责模拟的最佳人选。另一方面,罗洗河天赋异禀。这个快速走子不是从完整的棋谱里训练出来的,而是把所有局部的棋型都列举出来。所有的局部棋型,12格的小方块里面,几万个棋型,大家算算3^12是多少,全部输入到罗洗河的脑子里,然后让他自己琢磨去。这个琢磨的方法不是深度学习,而是线性回归。不过,还是管用的。我们训练快速走子,“罗洗河”的口号就是,不求最好,只求管用!



强化学习策略网络

接下来是一位重量级人物,聂卫平。擂台赛英雄,不必多介绍了。这里值得一提的是,藤泽秀行当年为了帮助中国围棋发展,曾多次自费组团前往中国指导年轻棋手。老一辈的中国棋手,包括聂卫平在内,都把藤泽看作自己的老师。同样,强化学习策略网络,低配版的聂卫平,也是低配版藤泽,监督学习策略网络的学生。低配版聂卫平,从低配版藤泽的招法开始,在自我对弈的过程中不断更新迭代,稳定以后变得比老师更强大,达到业余4段。


这个低配版“聂卫平”的主要职责,就是鞭策后生,训练价值网络。想当年,2002年围甲联赛,50岁的聂卫平和一位13岁少年对战。聂卫平宝刀不老,战胜少年。复盘时,老聂在棋盘上指点江山,轻松写意。不料,少年不服,反复强调如果我这么这么下就赢了。老聂不悦,拂袖而去,留下一句“你丫牛逼”。这位日后成为世界冠军的少年,就是陈耀烨。


价值网络

陈耀烨以形势判断准确而著称。我们看围棋TV的直播,那么多顶尖职业做过主播,唯有陈耀烨判断最准,好像一台形势判断机器。而我们的价值网络,也是一台形势判断机器,一个低配版的陈耀烨。价值网络从强化学习策略网络的棋局样本中汲取营养,将自己训练到能够,看到一个局面,就立即给出当前局面黑方的胜率。这个判断有多准确呢?如果我们让价值网络单独上场,那么它能够达到业余3段的水平,相当不俗。


现在我们有一个“四人团队”了。“藤泽秀行”、“罗洗河”、“聂卫平”、“陈耀烨”,虽然都是低配版的。其实还有第五位,和“罗洗河”很像,就不展开讲了。那么这些只有业余水平的神经网络,是怎么变成战无不胜的AlphaGo的呢? 关键回到之前介绍的,蒙特卡洛搜索树。


在AlphaGo这里,蒙特卡洛搜索树中的基本步骤,大致是上面这个图。第一步,选择。我们通过策略网络,就是图中的P,给出几个候选招法,这是第一层子节点。第二步,扩展。我们扩展第一层子节点,通过策略网络再下一招,给出第二层子节点。注意,这一步在刚开始模拟的时候是没有的。只有当第一层的子节点经过的次数超过40次的时候,才扩展这个子节点。第三步,评估。对于每一个子节点,我们分别用两种方式评估。一种是用价值网络,v_theta,直接做形势判断。第二种是用快速走子,p_pi,将棋局走到底,胜则记为1,败则记为0,这就是图中的r函数。最后一步,我们再把这两个结果返回第一层子节点,更新行动函数Q。重复N次以后,我们以行动函数Q,和另一个关于策略网络的函数u(P),这二者为依据,最终决定选择哪一招。


上面那段可能有些朋友听了有点晕,我们再结合一个具体的局面解释。

这个图的棋盘部分是从AlphaGo的论文里摘下来的。拿到这样一个局面,我们先请出“陈耀烨”。你先看一眼这个棋大概谁好啊?

请看图a,“陈耀烨”说,哦这个棋,如果黑走这里,胜率50,走那里,胜率51,最好是走右下这个画圈的地方,胜率54。我说哦好谢谢,你可以走了。这里只是请“陈耀烨”看看而已,并不作为主要决策依据。

接下来我们请出“藤泽秀行”,以您老人家的布局眼光,这棋走哪里好呀?请看d图。“藤泽”说,以我五十年喝酒的经验,不,下棋的经验,这棋我多半会走下边中间这个扳。还有三分之一机会走右下角的冲。其它棋,我基本上不会选。好嘞,谢谢您。劳烦您,您说的这两步,再帮我们分别往下摆一手。藤泽老师就帮我们分别摆了一手。

接下来,我们再把“陈耀烨”请回来。再劳驾你看看藤泽推荐的这几招,到底好不好啊,你给判断判断?我们也把罗洗河请来。劳驾他用一秒钟五十万步的神功,模拟一下,谁赢谁输?哎,不是让他俩随机选变化。你们一开始要听长辈,藤泽老师的,重点模拟他那两手。过段时间,你们有信心了,再多考虑你们自己的想法,明白了吗? UCT. 十几秒以后,陈耀烨给出了一个综合报告,就是图b,仍然坚持右下角的冲最好。罗洗河呢,报告说左下角的扳最好。这俩人的评价有分歧,听谁的呢?综合起来,我们取模拟次数最多的那一手。这就是图e,发现是右下角的冲模拟次数最多, 79%,下边的扳次之, 20%。我们最后选择右下角的冲。那图f是什么意思呢?图f,就是在由整个团队共同决定的模拟中,重复次数最多的那个分支,或者说变化。如果是两个阿法狗在对局,那么他们接下来就有比较大的可能按照图f进行下去。

这里有一点,“聂卫平”老师,也就是强化学习策略网络,没有出现。明明他比老师,藤泽秀行强呀,怎么不让他决策呢?AlphaGo的团队也曾经让聂卫平代替藤泽秀行做决策,结果单打独斗更强的“聂卫平”,在团队里的效果却不如“藤泽秀行”。为什么呢?这就有点玄学了,官方的解释是“聂卫平”给出的选择随机性太小。聂老布局水平高嘛,有很多棋在他眼里都不是围棋,只有他这一步才是对的。随机性小就阻碍了搜索的广度,这很不好,一不小心就漏看了一步棋。不过,说不定是聂卫平和团队里的其它成员八字不合吧,比如陈耀烨。不过,这个低配版“聂卫平”,并非没有价值。毕竟,他鞭策了后生,亲手训练了“陈耀烨”嘛。

这样的一个团队,通过蒙特卡洛搜索树结合到一起。三个臭皮匠赛过诸葛亮,战胜了职业二段樊麾,又在2016年3月,以4比1战胜传奇棋手李世乭。领头羊的突破总是会带动后来者。


历史长河中,每个时代总会出现一位思维层次高过同时期其他所有人的棋界霸主,从 黄龙士、道策、吴清源 到李昌镐。

每个时代的大师都以前所未见的形式冲击了旧的思维禁锢,打开了新的天地。

不知道多少人曾经想象过这样一件事,如果计算机帮忙穷尽计算,我们来做决策,岂不美哉,AlphaGo的出现确实整体的拔高了棋界对围棋的理解。



评论列表

我叫小Q 写于2021年7月17日 22:31
计算机能进入非完全信息博弈游戏吗
郑善文 写于2021年7月18日 20:21
看了下,大半都看不懂。
林怡廷 写于2021年7月22日 15:12
看不懂
骆骆驼 写于2021年8月13日 17:43
挺有意思的
刘子卓7 写于2021年8月21日 15:32
有点东西
雨雾迷蒙 写于2021年8月26日 14:26
看着很好玩,可惜我不懂
李所应当 写于2021年9月1日 10:43
基本看懂了
天涯张艺源 写于2021年9月19日 11:08
很厉害
乐不思棋 写于2021年10月11日 19:25
腻害
w_0494472191022 写于2021年10月15日 12:08
李范辛贺666 写于2021年11月7日 18:16
yo意思
少年队洪骁远 写于2022年2月15日 13:21
。。。
李硕澄19 写于2022年3月2日 21:20
what's this
郭韩万科 写于2022年3月2日 21:27
这配图是怎么做到的
打破黑暗 写于2022年3月3日 21:37
太神奇了
litjohn 写于2022年4月21日 21:35
说的很清楚
w_42551836191212 写于2022年5月5日 15:00
mark
w_3031706919428 写于2022年5月8日 21:11
不懂,电脑专业我还没学
孙赞赞 写于2022年5月9日 17:18
看了下,大半都看不懂,但是感觉很厉害
李硕澄19 写于2022年8月4日 16:28
看不懂
大名曲高谦 写于2023年9月17日 19:36
懂了,有点深奥
misscathy 写于2023年11月23日 02:18
我看不懂,但我大受震撼
jzl1028 写于2023年11月26日 18:56
懂了,太简单了
名词解释 写于2024年2月28日 23:32
学。
涵涵学弈棋 写于2024年3月29日 20:53
没看懂