能自學西洋棋、將棋、圍棋的 AlphaZero,榮登《科學》雜誌封面

作者 | 發布日期 2018 年 12 月 10 日 18:00 | 分類 AI 人工智慧 , 尖端科技 follow us in feedly

一年前,Alphabet 旗下人工智慧部門 DeepMind 發表 AlphaZero,稱它可以自學西洋棋、日本將棋和圍棋,並且項項都能擊敗世界冠軍。而在 8 日,經過同行評議,AlphaZero 一舉登上《科學》雜誌封面。



據之前 DeepMind 在 AlphaZero 論文介紹,AlphaZero 使用完全無需人工特徵、無需任何人類棋譜、甚至無需任何特定最佳化的通用強化學習演算法。也就是說,AlphaZero 實質上就是 AlphaGo Zero 的通用進化版本,它繼續保持 AlphaGo Zero 中不需要人工特徵、利用深度神經網路從零開始進行強化學習、結合蒙地卡羅樹搜尋的特點,並在此基礎上,更新網路參數,減少網路估計的比賽結果和實際結果之間的誤差,同時最大化策略網路輸出動作和蒙地卡羅樹搜尋可能性之間的相似度。

(Source:《科學》雜誌)

然而,DeepMind 發表 AlphaZero 之際,AlphaZero 也遭到某種程度的質疑,例如,一位 AI 研究人員就指出,DeepMind 沒有公開 AI 系統源代碼,因此難以檢驗和重複公布的結果。如今這項研究成果經同行評議登上《科學》雜誌封面,算是得到了證明。有趣的是,AlphaZero 的直接對手──棋士也紛紛表達讚許:

例如日本將棋 9 段職業選手、棋史唯一一位獲得「永世七冠」頭銜的棋士 Yoshiharu Habu 就評價:

它的一些移動方法,比如將 King 移到棋盤中心,就違背了日本將棋棋法。從人類角度來看,AlphaZero 的下法似乎已將棋置於危險的境地,但令人難以置信的是,它仍然掌控棋局。它獨特的下棋風格,讓我們看到了棋法新的可能性。

西洋棋前世界冠軍 Garry Kasparov 也不住稱讚:

我無法掩飾讚許,因為它的下棋風格靈活多變,跟我的風格很像!

 

一個多世紀以來,西洋棋一直用做人類和機器認知的羅塞塔石碑。AlphaZero 以一種獨特的方式,對古代棋盤遊戲與尖端科學之間的顯著聯繫帶來了新東西。

 

其影響遠遠超出我心愛的棋盤。這些自學成才的專家機器不僅表現得無比出色,且實際上,人類還可從它們產出的新知識中學習。

正如前面提到的,AlphaZero 是 AlphaGo Zero 的通用進化版本,而 AlphaGo Zero 又源自 AlphaGo,接下來不妨簡單回顧一下這幾個版本:

最初的 AlphaGo 的工作原理是:

在蒙地卡羅樹搜尋(MCTS)的框架下引入兩個卷積神經網路策略網路和價值網路,以改進純隨機的蒙地卡羅(Monte Carlo)模擬,並藉助監督學習和強化學習訓練這兩個網路,然後主要靠策略網路和價值網路分別預測下一步落子的點以及評估當前的局勢。

從 AlphaGo 到 AlphaGo Zero,系統的思路和模型結構都大幅簡化,帶來更快訓練和執行速度,以及更高棋力。

更早版本的 AlphaGo,策略網路和價值網路是兩個不同的深度神經網路,Zero 版是同一個 ResNet 的兩組輸出;

 

AlphaGo Zero 之前幾個版本都需要先把局面轉換為高一層的人工特徵再當成網路輸入、需要先學習人類棋譜,再轉變到自我對弈的強化學習、有一個單獨的快速走子網路去隨機模擬,而 AlphaGo Zero 則把局面落子情況直接當成網路輸入、由隨機網路權值直接開始強化學習、捨棄快速走子網路,直接用主要神經網路模擬走子。

接著從 AlphaGo Zero 到 AlphaZero,變化主要體現在如下幾方面:

第一,AlphaGo Zero 會預計勝率,然後優化勝率,只考慮勝、負兩種結果;AlphaZero 則會估計比賽結果,然後優化達到預計結果的機率,其中包含了平局甚至別的可能結果。

第二,由於圍棋規則具旋轉和鏡像不變性,所以專為圍棋設計的 AlphaGo Zero 和通用的 AlphaZero 就有不同的達成方法。AlphaGo Zero 訓練會為每個棋局做 8 個對稱的增強數據;且在蒙地卡羅樹搜尋,棋局會先經過隨機旋轉或鏡像變換之後再交給神經網路評估,這樣蒙地卡羅評估就可在不同偏向之間得到平均。西洋棋和日本將棋都不對稱,以上基於對稱性的方法就不能用了。所以 AlphaZero 並不增強訓練數據,也不會在蒙地卡羅樹搜尋中變換棋局。

第三,在 AlphaGo Zero 中,自我對局的棋局是由所有之前的更新過程表現最好的版本生成。每次訓練更新後,新版棋手的表現都要跟原先表現最好的版本比較;如果新版能以超過 55% 的勝率贏過舊版,那麼新版就會成為「表現最好的版本」,然後用它生成新的棋局供後續更新最佳化使用。相比之下,AlphaZero 始終都只有一個持續最佳化的神經網路,自我對局的棋局也就是由具最新參數的網路生成,不再像原來那樣等待出現一個「表現最好的版本」之後再評估和更新。這實際上增加了訓練出一個不好結果的風險。

第四,AlphaGo Zero 搜尋部分的超參數是透過貝氏定理最佳化得到。AlphaZero 直接對所有棋類使用同一套超參數,不再對每種不同的棋單獨調節。唯一的例外在於,訓練中加在先前版本策略的噪聲大小,這是為了保證網路有足夠探索能力;噪聲大小根據每種棋類的典型可行動作數目做了成比例的縮放。

將 AlphaGo 發展到 Alpha Zero,DeepMind 無疑帶給我們許多驚喜。使用人工特徵的 AlphaGo Fan 在出山之戰便全勝打敗樊麾,還發表第一篇論文;50 塊 TPU 上執行的 AlphaGo Lee 以 4:1 戰績擊敗李世乭,還創作了紀錄片並上映;接著只用 4 塊 TPU 的 AlphaGo Master 又在烏鎮圍棋峰會以 3:0 擊敗柯潔,打碎了人類可擊敗 AlphaGo 的幻想;再來又有拋棄人工特徵和所有人類高手棋局的 AlphaGo Zero 靠自學成功超越了「前輩」AlphaGo Master。現在,DeepMind 帶來的更通用、能下各種棋類、且在圍棋表現更上一層樓的通用強化學習模型「AlphaZero」,則給我們帶來更大的驚喜。

AlphaGo 的一路進化中,我們見證了 DeepMind 的工程師對深度強化學習本質的思考和嘗試,也看到不斷最佳化帶來的無需先驗知識、降低資源消耗、提高訓練速度等可喜的技術進步。本次 AlphaZero 登上《科學》雜誌封面,也算是對他們的嘗試和技術進步的最好回饋。接下來 DeepMind 還將讓 Alpha Zero 進化到哪個地步呢?一起期待吧!

(本文由 雷鋒網 授權轉載;圖片來源:DeepMind

延伸閱讀: