柯潔輸得不冤枉，Master 版 AlphaGo 進步神速可讓李世乭版 3 子

日前於烏鎮舉辦的圍棋人機大戰，中國頂尖棋士柯潔失利，以 1/4 子負於 AlphaGo。面對加強版的 AlphaGo，賽前外界普遍不看好柯潔能獲勝。5 月 24 日的人工智慧論壇上，AlphaGo 團隊負責人就揭露了更多 AlphaGo 的開發細節，指 AlphaGo 化身 Master 在經過網上 60 場頂尖水準的對弈和自我學習後，棋力已比 2016 年對戰李世乭時更進一步，而且使用最新的硬體和機器學習技術。面對更強的 Master 版本，柯潔僅負半目於首戰落敗，已表現出身為世界頂尖棋士的實力。

2016 年 3 月，由 DeepMind 研發團隊開發的 AlphaGo 一鳴驚人，在五局對弈中以四勝一負的成績壓倒性擊敗南韓職業九段棋士李世乭。事隔一年，Google 於中國烏鎮舉辦為期 5 天的圍棋暨人工智慧高峰會，掀起人工智慧與人類頂尖棋士的第二次正式公開對決：DeepMind 的圍棋人工智慧 AlphaGo 與世界排名第一的柯潔九段展開三番棋對弈。在 23 日的首局對弈中，執白棋的 AlphaGo 以 1/4 子的優勢先拔頭籌獲勝。柯潔亦在賽後表示，AlphaGo 實在出色，這一局輸得心服口服，還形容 AlphaGo 已接近圍棋之神了。

AlphaGo 快速自我完善進步神速全靠獨特演算法

AlphaGo 能屢屢擊敗人類頂尖棋手，在於其先進的機器學習演算法。一直以來，圍棋被認為是傳統遊戲中對人工智慧最具挑戰的項目。不單是因為圍棋包含龐大的搜尋空間，更是因為對落子位置的評估難度，已遠遠超過簡單的啟發式演算法，以現在的電腦運算能力，也無法就所有可能的棋局情況做窮舉搜尋。DeepMind 研究科學家 David Silver 就在首日賽後的人工智慧峰會上詳細解構了 AlphaGo 背後演算法的細節。

為了應對圍棋的複雜性，在訓練 AlphaGo 時，團隊採用新穎的機器學習技術，結合人類專家監督學習和強化學習的優勢。透過訓練形成策略網絡（Policy network），以棋盤上的局勢為輸入資訊，並對所有可行的落子位置產生概率分布，然後訓練出價值網路（Value network）對自我對弈進行預測，以對手的絕對勝利到 AlphaGo 的絕對勝利為標準，預測所有可行落子位置的結果。

▲ AlphaGo 的訓練模式。

在獲取棋局資訊後，AlphaGo 就會根據策略網路探索哪個位置同時具備高潛在價值和高可能性，進而決定最佳落子位置。在分配的搜尋時間結束時，類比過程中系統最頻繁考察的位置將成為 AlphaGo 的最終選擇。

▲ 策略網路運作模型。

▲ 價值網路運作模型。

David Silver 解釋，AlphaGo 透過將這兩種網路整合進基於概率的蒙特卡羅樹搜尋（MCTS）中，展現它真正的優勢。而 2016 年初在網上突然出現，與世界頂級圍棋選手進行了 60 場網上對局並取得全勝戰績的 Master，正是 AlphaGo 的升級版本。

▲ DeepMind 研究科學家兼 AlphaGo 團隊負責人 David Silver。

對比李世乭時期的 AlphaGo，其主要透過預判 50 個回合和預測對手可能落子的位置來限制減少搜尋樹規模，新的 Master 版本已經可以考慮到整個棋局最有價值的位置，而且能以最少回合預測數來達到更高的準確度。現在最新版本的 AlphaGo 能產生更大量自我對弈棋局，為下一代版本提供了訓練資料，此過程循環往復，能不斷將 AlphaGo 達致近乎完美。

▲ AlphaGo 在對決職業二段棋手樊麾，對戰李世乭及與 60 名頂級水平棋手 3 個不同階段的實力水平對比，AlphaGo Master 更達到可讓 AlphaGo Lee 3 子的差距。

DeepMind 創辦人：AlphaGo 已具備有限創造力

▲ DeepMind 的聯合創始人兼 CEO Demis Hassabis。

David Silver 亦提到，AlphaGo 經過前期的全盤探索和過程中對最佳落子的不斷揣摩後，其搜尋演算法已可在計算能力上加入近似人類的直覺判斷。DeepMind 的聯合創始人兼 CEO Demis Hassabis 更表示，雖然領域有限，但 AlphaGo 已明顯展現出具備透過組合現有知識產生新穎或獨特想法的能力，即人類所說的創造力。

除了演算法上的改進，硬體上的提升亦功不可沒。David Silver 透露，AlphaGo Lee 版本時，需要在 Google Cloud 上 50 個 TPU（Tensor Processing Unit）運作，而搜尋 50 個棋步為每秒 10,000 個位置。他解釋，每秒 10,000 個位置看似很多，但 20 年前由 IBM 研發，應用於分析西洋棋的深藍（Deep Blue），已可每秒搜尋 1 億個位置。相較之下，AlphaGo 透過策略網路和價值網路進行判斷無疑更聰明，亦大幅節省無意義的窮舉搜尋分支。

現在的 AlphaGo Master 版本，已可在單個 TPU 機（包含 4 個 TPU）上運作，亦能透過產生大量自我對弈進行自我學習，進一步調整出更強大的策略及價值網路，縮減搜尋樹的分支和規模。他又指，目前運作 AlphaGo 的 TPU 是上週 Goolge I/O 2017 大會上公布的最新版本，專為機器學習設計，對比舊版，新版本在處理計算時所消耗的電量僅為以往的十分之一，運作效率亦提升了 10 倍。

AlphaGo 與柯潔的對決固然吸引人，人工智慧的討論也是這次峰會的另一重點議題。適逢 Google 上週在 I/O 2017 會上提出將「行動為先」轉為「AI 為先」的策略，DeepMind 及 AlphaGo 團隊的代表在烏鎮現場的演講中，不時提到 AlphaGo 只是 AI 在不同領域和行業應用的開始。

（本文由 Unwire.pro 授權轉載；首圖來源：DeepMind 影片截圖）