柯潔為何說「輸得沒脾氣」?8 個問題解讀人機大戰第一局

作者 | 發布日期 2017 年 05 月 24 日 17:36 | 分類 AI 人工智慧 , Google , 晶片 follow us in feedly

經過 4 個多小時對弈,柯潔以 1/4 子之差敗給了AlphaGo。比賽後,曾參與訓練 AlphaGo 的棋手樊麾,與九段常昊一起回顧整個對弈過程。柯潔也與 Deepmind 創始人 Demis Hassabis,以及 AlphaGo 的主程式設計師 David Silver 一同接受媒體採訪,談及對比賽的感想。




AlphaGo 注重整體局勢的發展

樊麾提到,在經過年初 Master 的 60 局比賽後,很多棋手也在嘗試用點三三這種下法。而柯潔也模仿了這種開局。

常昊在分析中表示,對整個棋局印象最深的,是白棋在開局後不久第 24 手的大飛,這顯出 AlphaGo 更更注重中央勢力的發展,對厚薄和棋局的發展有更多注重,因為這一步在未來棋局中的效率會更高。

AlphaGo 另一個令人印象深刻的也是在開局後不久,在棋局的左上方,下了一步斷。在斷之前,黑棋(柯潔)看起來很厚,但之後白棋(AlphaGo)也變厚了。常昊稱,「這是走一步後手,但卻留下了很多餘味。」

▲ 白子第 24 手「大飛」,第 54 手「斷」。

「這步帶給我們新想法,有些棋不是無法下,是下了以後會有新思路。它提供一種思路創新,我們可以共同研究,為圍棋的下法帶來更多發展。」

雖然被圍住的 4 個子看起來已經沒救了,但 AlphaGo 依然更利用這 4 子,它會想把棋盤上所有子的價值都利用到。

柯潔:輸得沒脾氣

柯潔在回顧比賽時也對第 54 手的斷表示肯定。他稱,「很震驚,這在人類的下法中是無法有的」。在斷之後,它把自己的腳步實地化,變得更厚,一石二鳥。

柯潔感歎道,「實在下得太出色了,輸得沒什麼脾氣。」

Demis Hassabis 在賽後表示,這是一場非常精彩的比賽,他非常尊敬柯潔,這一戰的表現令人佩服。他認為柯潔表現出頑強與精彩的實力,在賽前也做了很多戰前準備。

「柯潔同時做了戰略和戰術的準備,比如點三三(這種策略),這是他從年初 Master 的 60 場比賽中的總結。他有自己的戰略,有好幾手都非常漂亮。第 24 手是全盤皆活的一手。接下來還有很多場比賽,我非常尊敬柯潔,讓 AlphaGo 也必須全力以赴對付你。」

比賽的結果雖然出來了,但外界對 AlphaGo 和柯潔的好奇心沒有滿足。在採訪中,雙方也回答了很多大家關心的問題。

賽後柯潔為什麼笑?

柯潔稱,這是苦笑,不是很開心的笑。

「很早就知道自己會輸。AlphaGo 的每一步棋都是均速的,到最後時已經知道會輸多少了。」

對於自己的評價,柯潔稱,「AlphaGo 下得很精彩,但我也盡了全力。它下得太好了,有很多地方值得棋手學習和探索。它對圍棋的理念帶來了衝擊,改變我們最初對圍棋的下法,沒什麼棋是無法下的。對 AlphaGo 的想法也有改變,我們可以大膽創新,開拓自己的思維,可以自由地下棋。今天也是大膽地開拓了自己的思維。」

柯潔還曾想用 AlphaGo 的策略來對付它。「我的印象中 AlphaGo 非常貪戀實地,比如點三三的方法,今天我也使用這種策略。但這意圖被 AlphaGo 打敗了,完全進入它的調子中。它真的下得非常好。」

柯潔認為,AlphaGo 的棋與去年完全是兩個人。第一次時它很接近人,但現在越來越像「神」。

AlphaGo 有弱點嗎?

柯潔認為,弱點暫時沒看見。以前還是有弱點,但現在 AlphaGo 對圍棋的理解與判斷已經遠勝於人類了,贏的話只能找一些 bug 出來。

但他同時說,「對自己永遠要有信心。」

Hassabis 稱,李世乭後 AlphaGo 再次參加比賽,就是希望棋手們能找到 AlphaGo 的弱點,找到它自己對弈時不知道的缺陷。

「李世乭當時在第 4 局找到了缺口,後來我們改善了程式。當然還會有新領域,我們和 AlphaGo 都不知道,所以才會參加比賽。」

David Silver 解釋,AlphaGo 的做法是將獲勝機率最大化,而不是接近式贏得比賽。它會搜尋一些確定的路線,實現低風險的獲勝機會。這也是取捨問題,要決定如何擴大勝利的機率。當然,它還有一些其他目標,比如將勝利的步伐邁得更大,如果重點只放在獲勝,它可能會降低風險,即使很小的風險也會關注。

對圍棋的影響?

Hassabis 認為,圍棋是一個非常有意思的主題,有無限的可能性。透過比賽,可以改進對圍棋的理解,這是人類可以用的工具,讓偉大的棋手發現更多圍棋的奧妙。

AlphaGo 完全不依賴棋手訓練嗎?

David Silver 稱,AlphaGo 一開始就是跟人類學習的,透過自身對弈來學習時,也必須跟人類對弈才行,因為與頂尖棋手對決才能改善。新版本是更多與自身對弈學習,實現自我搜尋,對人類資料的依賴更小了。而 DeepMind 的目標是讓它的規則超越圍棋,應用到其他領域。

戰勝位於圍棋頂端的柯潔後,AlphaGo 是否就此隱退?

對這問題,Hassabis 沒有正面回應,只是表示,本週稍晚會宣布下一步怎麼做。像第一版在學術期刊上發表技術細節一樣,他們以後也會發表更多新版本的細節,會披露更多技術,讓其他團隊與實驗室做自己的版本。

技術細節?多少個 TPU?單機版?

這次比賽的 AlphaGo 是新版本,它改善了新演算法,主要進步是計算量少了十倍,自我對弈更強。

Hassabis 稱,在比賽中程式是在一台單一機器上運作,這與去年不一樣,當時是分散式的。這次有更強大的演算法,運作起來更簡單也更好,速度更快。

Hassabis 表示,計算力可以「在 Google 雲中獲得,用的是 TPU,十個處理單位,少了十倍的計算量」。簡單點說,這次的 AlphaGo 是單機版。

柯潔再也不與人工智慧比了?

賽前,柯潔發微博表示,這次比賽是最後 3 場與人工智慧的比賽。賽後,他再次確認這個決定。

「考慮了很久,AlphaGo 進步太快了,每一步都是巨大的進步,在以後會更加完美,而人與它的差距不是靠自己的努力就能去彌補的。我相信科技的力量,未來是人工智慧的。對圍棋來說,我還是喜歡和人來下,因為機器與人的差距會越來越大,人贏的概率會越來越小,這樣下棋太痛苦了,一盤都贏不了。」

他表示,以後也不會訓練機器了,這是最後的三盤棋。

「希望以後還是下人類的棋,對軟體把它當作一個老師,一個學習的對象去看待。」

他表示,對自己的表現也有點不滿意,覺得自己可以做得更好,但有時候無論怎麼努力都無法做到。所以這最後一次,他希望不留遺憾,下出讓自己滿意的棋局。

「令 AlphaGo 的主機發燙也好。」

那如果人類棋手不想和 AlphaGo 下了怎麼辦?

Hassabis 表示,從他們的角度來說,想要 AlphaGo 作為圍棋工具,能為人類所用,所以會有架構知識的分享,讓大家知道它。也希望它能走進尋常百姓家,在醫學與科學找到應用場域。

(本文由 雷鋒網 授權轉載;首圖來源:達志影像)

延伸閱讀: