DeepMind 推出 AlphaGo 圍棋教學工具,圍棋學習新紀元來了?

作者 | 發布日期 2017 年 12 月 14 日 8:00 | 分類 AI 人工智慧 follow us in feedly

台灣時間 12 月 11 日晚上,DeepMind 在 Twitter 宣布推出圍棋教學工具 AlphaGo Teach。



上圖中,標有白圈的黑子表示上一手,虛線圓圈表示 AlphaGo 下一步可能的走法,實線圓圈表示人類選手下一步可能的走法,圓圈中的數字表示 AlphaGo 評估的黑子勝率。

從官網可以看到,該工具透過利用 231,000 盤人類棋手對局、75 盤 AlphaGo 與人類棋手對局的數據,能分析圍棋近代史上 6,000 種比較常見的開局。透過這個工具,大家可以探索圍棋奧妙,比較 AlphaGo 的下棋路數與專業選手、業餘選手的不同點,從中學習。

官網對工具的使用也有相關說明:

如何使用這一工具?

點擊棋盤上的彩色圓圈,或使用棋盤下方的導航工具,即可探索不同的開局變化,以及 AlphaGo 對每一步棋的黑棋勝率預測。

圓圈中的數字代表該步棋的黑棋勝率。當輪到黑棋落子時,數值越接近 100 表示黑棋優勢越大;當輪到白棋落子時,數值越接近 0 表示白棋優勢越大。50 則表示均勢。

了解 AlphaGo 的勝率預測

AlphaGo 的下法不一定總是有最高勝率,這是因為每個下法勝率都是得自單獨一個 1,000 萬次模擬的搜尋。AlphaGo 的搜索有隨機性,因此 AlphaGo 不同的搜尋可能會選擇勝率接近的另一種下法。

除了官網的簡單介紹,身為 DeepMind 圍棋大使、AlphaGo 的「教練」,樊麾也在個人微博宣布「AlphaGo 教學工具終於上線。」

他表示,

教學工具共有兩萬多個變化,37 萬多步棋組成,透過 AlphaGo 的視角,分析並建議圍棋開局的諸多下法。同時每步棋 AlphaGo 都會分析自己的勝率,希望 AlphaGo 對圍棋的獨特理解可以給我們一些啟發。

本教學工具使用的版本是 AlphaGo Master。具體訊息可在主頁看到,工具設有包括中文簡體在內的多個語言。

同時,樊麾也從 AlphaGo 的教學舉了幾個有意思的例子,並進行幽默的解說。「下邊幾個圖是我從萬千變化圖中發現比較有衝擊力的幾個,類似的變化圖有很多很多,大家可以自己找找。」

▲ 原來二路虎不見得好。

▲ 對付迷你中國流的新辦法。

▲ 小林流也不是只有大飛掛。

▲ 原來這裡還可以飛!

▲ 妖刀公式!

看到樊麾老師的微博之後,大家也開始各色各樣的調侃。

@ 樓天:「有 21 天從入門到精通系列課程嗎?」

@ 我就是那一片浮雲:「完了,十段棋手猛烈增加。」

@ 自動高速公路:「做成 App 就可以成為圍棋比賽作弊器了。」

@ 於縛風:「圍棋輔導班的老師沒法講課了。」(圍棋老師表示哭暈在廁所)

看完了大家的調侃,來看看專業棋士怎麼說。

世界圍棋冠軍、職業九段棋士常昊表示,教學工具不一定是標準答案,更多的是給予我們無限的思考空間。

首屆百靈愛透杯世界圍棋公開賽冠軍周睿羊說,「公式什麼的還是不要隨便學了,看到工具一些高級下法之後,感覺又可以起飛了。」

第 3 屆鑽石杯龍星戰冠軍、圍棋國手李喆也對這教學工具發表中肯評價:很多人會擔心今後布局的標準化,其實不必擔心。教學工具並不是告訴大家「只能這麼下」,而是告訴大家「有些下法不太好」以及「可以這麼下」。有些圖中沒有的下法只是因為模擬的隨機性而未收錄,之中包含很多高勝率的選點,仍可以大膽嘗試。

此外,今年 5 月被 AlphaGo Master 打敗的柯潔第一時間轉發微博表示「重新學圍棋」(還用了一個賤賤的表情)。

而這個工具到底好不好用,大家可以體驗看看。

官網英文網址:https://alphagoteach.deepmind.com/

中文網址:https://alphagoteach.deepmind.com/zh-hans

附上 DeepMind 研究科學家 David Silver 介紹 AlphaGo Master 的研發關鍵:

AlphaGo Master 為何如此厲害呢?

我們讓 AlphaGo 跟自己對弈。這是基於強化學習,我們已經不再拿人類的棋局讓它學習了。AlphaGo 自己訓練自己、自己從自己身上學習。透過強化學習的形式,它學到如何提高能力。

棋局每一回合,AlphaGo 運行火力全開(full power)的搜尋以生成落子建議,即計劃。當它選擇這一步落子、實施,並到一個新回合時,會再一次搜尋,仍是基於策略網路和價值網路、火力全開的搜尋,來生成下一步落子計畫,如此循環,直到一局棋結束。它會無數次重複這過程,產生大量訓練數據。隨後,我們用這些數據來訓練新的神經網路。

首先,當 AlphaGo 和自己下棋時,用這些訓練數據來訓練一個新策略網路。事實上,在 AlphaGo 執行搜尋、選擇一個落子方案之前,這些是我們能獲取的最高品質數據。

下一步,讓策略網路只用它自己、不用任何搜尋,來看它是否能產生同樣的落子方案。這裡的思路是:讓策略網路只靠它自己,試圖算出和整個 AlphaGo 火力全開搜尋結果一樣的落子方案。這樣一來,這種策略網路就比之前版本的 AlphaGo 要厲害得多。我們還用類似方式訓練價值網路。它用最好的策略數據來訓練,而這些數據,是出於完全版本的 AlphaGo 和自己下棋時的贏家數據。你可以想像,AlphaGo 和自己下了非常多盤棋。其中最有代表性的棋局選出來提取贏家數據。因此,這些贏家數據是棋局早期回合步法非常高品質的評估。

最後,我們重複這過程許多遍,最終得到全新的策略和價值網路。比起舊版本,它們要強大得多。然後再把新版本的策略、價值網路整合到 AlphaGo 裡,得到新版本、比之前更強大的 AlphaGo。這導致樹搜尋中更好的決策、更高品質的結果和數據,再循環得到新的、更強大的策略、價值網路,再次導致更強大的 AlphaGo,如此不斷提升。

(本文由 雷鋒網 授權轉載;首圖來源:pixabay)