柯潔說:全力以赴下棋,之後不再與 AI 對弈

作者 | 發布日期 2017 年 05 月 27 日 0:00 | 分類 AI 人工智慧 , Google , 晶片 follow us in feedly

5 月 23 日 14 點 52 分,一盤圍棋在烏鎮網際網路國際會展中心收官,黑子以 1/4 子輸給白子。



這是 AlphaGo 和柯潔的第一場正式比賽,猜先後,柯潔先手執黑,AlphaGo 執白,代 AlphaGo 執棋的是 DeepMind 資深研究員黃士傑博士。

與之前 AlphaGo 在網上化身 Master 連續 60 場不敗的快棋不同,這一場比賽採用傳統規則,每人有 3 小時時間。

在這場比賽終盤,柯潔的剩餘時間僅 13 分鐘,AlphaGo 的剩餘時間卻是 1 小時 29 分。但最終結束時柯潔僅以 1/4 子小負,並不像之前許多人悲觀預測的「慘敗」。

對一場被極度關注的賽事,柯潔在比賽剛開始時的表現卻顯得輕鬆。

他繫一條天藍色領帶,正逢烏鎮梅雨時節,這條領帶讓他看起來有一點小清新。雖然還不到 20 歲,但比賽中的柯潔總讓人感覺不到他其實還是個少年。

柯潔和 Alpha Go 其實有一些相似,就是他們都很擅長學習。在第八手棋時,柯潔主動「點三三」。

「三三」是吳清源的名局,今年 1 月 AlphaGo 化名 Master 瘋狂對戰時常用這一招開局,現場解說的華以剛說明這種下法的時候這麼說:太神奇了,也評論不出是好棋還是壞棋,因為根本就沒見過有人這麼下。柯潔很大膽的學了這招,並反用在 AlphaGo 身上。

儘管最後以很小的差距輸給 AlphaGo,柯潔還是認為 AlphaGo 是個太厲害的棋手。這次 AlphaGo 跟上次人機大戰版本不太一樣,上次還像點人,但這次就完全不像了。

如果有一件事是柯潔從 AlphaGo 身上學到的,那就是:沒什麼棋無法下。

第一場比賽結束後的柯潔稍顯落寞,甚至還苦笑了一下,其實他很早就知道自己要輸了。但是他說後兩場仍會全力以赴,因為這將是他和人工智慧的最後兩場比賽了,此後,他只和人類對弈。

為什麼是今年,AlphaGo 現在能戰勝人類?

深藍在西洋棋領域戰勝卡斯帕羅夫已過了 20 年,為什麼 AlphaGo 在這麼多年後才總算有望戰勝人類?

其中一個重要的原因是,西洋棋的所有可能性只有 10 的 46 次方,而圍棋的可能性是 10 的 170 次方。

在深藍獲勝 20 年之後電腦領域幾乎沒有停滯過的摩爾定律,為 AlphaGo 的出現提供了演算法基礎。

另一方面,人工智慧演算法在過去 20 年中也出現變化。最典型的是從雙層神經網路進化到多層神經網路,而在反向傳遞的基礎上多層神經網路的自主學習實現了可能。

簡單來說,即便 1997 年人類就已做出AlphaGo使用的蒙特卡羅樹搜尋,也不足以製造出能運算的電腦。

早在 1952 年,電腦專家圖靈就編寫了世界上第一個可以下西洋棋的電腦程式。但當時的電腦算力不足以支撐這個程式,圖靈用紙和筆模擬驗算,半小時下一步與同事對弈。

算力的改進為 AlphaGo 提供了比之前所有 AI 更快的思考速度,算法的改進則為 AlphaGo 提供了比之前任何 AI 都先進的思考方式。

兩者共同實現的就是讓 AlphaGo 在正常圍棋賽的時間內,計算出下一步落子位置。這才是讓 AlphaGo 在今天,此刻有可能戰勝人類的原因。

AlphaGo 在第一局比賽中,剩餘的時間很長,但贏的目數不多。AlphaGo 現有的演算法依然有改進的空間。這也許是因為之前 AlphaGo 都在下快棋,還沒有習慣「多思考一會兒」。

賽後舉行的記者會上,柯潔在回答提問時表示:「要讓我自己當嘉賓點評的話,我要說 AlphaGo 下得很好,有很多地方值得我們棋手去學習。我也深受 AlphaGo 的影響,沒有什麼其實是不可以下的,可以大量去創新,開拓自己的思維,是很值得我們去學習的。」

那麼,AlphaGo 是如何贏得比賽的?

AlphaGo 的基礎原理很多地方已經講過了──既然圍棋的可能性有 10 的 170 次方之多,那麼就不可能透過窮舉法來預測對手的每一步。

但是,現實中的圍棋對弈也不需要這樣預測所有可能,只需要綜合圍棋的一般下法、經典的棋譜、對手的下棋風格,猜出「此刻對手打算怎麼走」就可以剋制對方了。

按照先前的介紹,AlphaGo 抓取棋局資訊後,會根據策略網路(policy network)探索哪個位置同時具備高潛在價值和高可能性,進而決定最佳落子位置。

在規格的搜尋時間結束時,模擬過程中系統最頻繁考察的位置將成為 AlphaGo 的最終選擇。經過先期探索和過程中對最佳落子的不斷揣摩後,AlphaGo 的搜尋就能在其計算能力上加入近似人類的直覺判斷。

這套價值網路能近乎準確地判斷出一顆棋子對周圍環境的影響。一個棋子的價值很難衡量,但是如果能把棋盤上所有棋子當成整體來考慮時,就有掌控大局、把局部影響力轉換為全局優勢的能力。

正是這種全局觀讓柯潔輸得特別「沒脾氣」,柯潔說這是一種「想發力卻無處發力的無力感」。

在圍棋這種人類發明的博弈遊戲中,人工智慧有兩個先天優勢是人類無法比擬的:

人工智慧可以背下所有的棋譜和看完對手的所有比賽;

人工智慧沒有受正統圍棋比賽的「套路」影響,下法上更出其不意。

但是隨著 AlphaGo 不斷公開比賽,第二點優勢會逐漸消失。柯潔在這場比賽中展現了針對人工智慧棋手慣用下法的一些策略,實際效果不俗,讓這場比賽看起來幾乎「勢均力敵」。

而很多人注意到,這一局比賽中「AlphaGo 判斷自己勝定後,在小官子階段有退讓」,這不一定是 AlphaGo 人性化了,而是 AlphaGo 在「學習」過程中,連人類這種下棋「禮儀」也學走了。

這有可能,反而是戰勝 AlphaGo 的突破點。

成為最頂尖的圍棋高手,然後呢?

柯潔這次三番棋後不會再和 AI 對弈,那 AI 呢?

從第一次人機大戰到第二次,AlphaGo 的變化很大。

最初是學習大量棋譜,從中搜尋規律和經驗,更深度的學習後,新一代 AlphaGo 逐漸擺脫人類思維,透過無數次自我對弈進行勝率最佳化。棋譜的數量有限,但是透過自我對弈,AlphaGo 卻能得出更多新策略,就是常被大家認為「什麼都敢下」的棋風。

這也是為什麼 AlphaGo 被柯潔形容「越來越不像人」。AlphaGo 最初的學習參數是以人類棋譜為基礎,而新版 AlphaGo 則增加強化學習的比重,也就是訓練的資料大多透過自我對弈產生。如此更新迭代、迴圈往返,價值判斷上就會越來越形成自己的風格。

可以說正是戰勝自己千萬次,AlphaGo 才能在棋盤上戰勝柯潔一次,而柯潔就是人工智慧在棋盤上能遇到的終極敵人。

學習方式越來越接近人腦,這確實達到 DeepMind 當初想用演算法提煉智慧的目的。

除此之外,新版 AlphaGo 在計算能力上的提升也很巨大。DeepMind CEO Demis Hassabis 在賽後記者會上告訴大家,目前的 AlphaGo 透過雲端單 TPU 執行,TPU 是專門為機器學習而設計的處理器。與去年 3 月與李世乭比賽時的版本相比,新一代 AlphaGo 的計算能耗僅為過去的十分之一。

如果這次真的全勝,AlphaGo 的下一個目標會是什麼?Demis 稱要把懸念留在不久後揭曉新一代 AlphaGo 的時候。

但三番棋才剛開始,AlphaGo 距離自己完勝人類還要經歷 5 月 25 日和 27 日兩場。雖然大多數預測都認為反轉局勢機會渺茫,但是如果能在比賽中摸索出 AlphaGo 一些套路,也許可以在剩餘兩場「掙扎」絕處逢生。

棋手若還能穩坐,旁人又何必多言。加油呀,代表人類的最終 Boss。

(本文由 PingWest 授權轉載;首圖來源:Flickr/Jaro Larnos CC BY 2.0)

延伸閱讀: