暢談發展 AlphaGo 的心路歷程,黃士傑:AI 會成為人類的工具,與人類合作

作者 | 發布日期 2017 年 11 月 10 日 16:25 | 分類 AI 人工智慧 , 尖端科技 follow us in feedly

2017 人工智慧年會 10 日特別邀請到 DeepMind 工程師黃士傑來暢談發展 AlphaGo 的心路歷程,除了分享協助 AlphaGo 下棋時幾個感到意義重大的時刻,他也對 AI 未來的發展提出一些看法。



黃士傑表示,之所以會開始發展 AlphaGo,一切都是與 20 年前西洋棋王與 IBM「深藍」的對局有關。

在西洋棋被 AI 打敗後,人們開始將焦點轉到更複雜的圍棋,研究人員試著用西洋棋那套去設計下圍棋的 AI,但棋力始終無法突破業餘三段,這也讓許多人相信圍棋是 AI 最終挑戰。

DeepMind 創辦人 Demis Hassabis 可能也有相同的想法,他在 2011 年成立公司後便找來劍橋大學的同事 David Silver 一同發展,黃士傑則是在 2012 年加入 DeepMind。

其實 2011 年 DeepMind 就已與黃士傑聯絡,當時黃士傑設計的 ERICA 運用單薄的硬體設備擊敗了其他國家的 AI,贏得電腦奧林匹克(Computer Olympiad)19 路圍棋冠軍。

但當時的 DeepMind 並沒有透露想發展圍棋的意思,因此儘管收到 Silver 來信邀約,黃士傑還是先前往加拿大擔任電腦圍棋研究員,直至隔年才決定加入 DeepMind,成為 DeepMind 的第 40 號員工。

黃士傑表示,加入 DeepMind 的第一年,團隊只是埋頭進行 AI 相關研究,但 Hassabis 一直經常有意無意向他提到做圍棋的想法,因此最後決定進行 AlphaGo 時,他並沒有太感意外。

但 DeepMind 並沒有打算要以 ERICA 為基礎來發展。黃士傑還記得第一次討論會議時,Silver 特別向他表示,團隊的目標不是做出 ERICA+,因為過去的 AI 即使再進步還是有瓶頸在,再怎麼提升棋力也無法與高端棋手對弈,「我們要做些不同的。」

休士頓,我們登陸月球了

在與柯潔的世紀之戰後,Demis Hassabis 曾對外表態,自己 20 年前就希望做出 AlphaGo,但對黃士傑來說,至少對 5 年前還在念書的自己來說,做出 AlphaGo 是他從未想到的。

2014 年,DeepMind 被 Google 購併,團隊加入了來自 Google Brain 的幾名生力軍,其中也包含知名的 Chris Maddison 及 Ilya Sutsk。在 Google 的硬體協助之下,AlphaGo 的開發開始進展得非常快速。

團隊運用策略網路(Policy Network)的概念成功開發出最原型的 AlphaGo,並多次打敗當時最強的電腦圍棋程式,勝率達到 78%,這讓黃士傑每天都有種「神經網路真是強!」的想法。

但此時 AlphaGo 的棋力還是遠不足以與職業棋士對弈,在黃士傑的建議下,DeepMind 又再次擴充了團隊,並在接下來開發出 AlphaGo 的主要突破:價值網路(Value Network)。

在與舊版本 AlphaGo 多次對弈中,搭載價值網路的 AlphaGo 展現明顯的優勢,黃士傑認為,這個突破正是展現了「強化學習聯合深度學習」的勝利。

在這之後,Hassabis 認為是時候找職業棋士來對弈了,於是找來了 AlphaGo「職業生涯」中第一個對手:中國職業二段的樊麾。雖然黃士傑這時候還不太有信心,但 AlphaGo 還是在對弈中以 5-0 的差距擊敗了對手。

在打敗樊麾之後,團隊將下一個對弈目標鎖定至李世乭,但 Hassabis 卻同時開始計畫發表 AlphaGo 的相關研究論文,這個舉動讓黃士傑不太理解,為什麼選擇在這個時刻公布論文,透露資訊讓對手知道?

Hassabis 的回答讓黃士傑至今日都還記得。「他說我們就是在做研究,科學就是要分享才能推動領域進步。」

論文刊出那天,團隊也正式向李世乭發出戰帖,這便是黃士傑認為對他來說第一個最重大的時刻──操作 AlphaGo 與李世乭對弈並獲勝。

(Source:Flickr/NASA Goddard Space Flight Center CC BY 2.0)

與李世乭對弈前,DeepMind 一直不停訓練 AlphaGo,就連聖誕節也是和 AlphaGo 一同度過。黃士傑表示,雖然團隊非常希望獲得勝利,但一開始只是抱著探索的心態,真的沒有想過 AlphaGo 會這麼強,強到足以打敗高段職業棋士。

在與李世乭的對弈結束後,DeepMind 成員互相擁抱,黃士傑形容那種獲勝的感覺,就像 Demis 賽後在推特寫的一樣。「AlphaGo 贏了,我們登陸了月球。」

網路不知名的棋士……不是 SAI

考量到 AlphaGo 獲得的成功,有些人認為 DeepMind 可能會就此停下享受成功,但團隊並沒有打算停止研發。

之所以沒有停下腳步,主要是因為在與李世乭對弈的第四局,AlphaGo 可說是「慘敗」收場,當下從操作者的角度看來,黃士傑甚至認為自己來下都會比 AlphaGo 處理得好,因為 AlphaGo 犯的是一個非常初學者的失誤。

「如果 AI 有弱點就沒有人會使用,我們必須全面性的把 AlphaGo 弱點解決掉。」

深入研究後,團隊發現 AlphaGo 對某些盤面評估會出現錯誤,黃士傑將之稱為神經網路的「盲點」,最終透過加強學習效能才終於解決這項問題,AlphaGo Master 也就此誕生。

黃士傑解釋,團隊主要還是用深度學習跟強化學習去解決,改進 MCTS、讓 AI 在直覺跟判斷上更有一致性,同時加入了像是面對模仿棋、循環劫等特殊情況的訓練,最終才創造出 AlphaGo Master。

(Source:Flickr/Kenming Wang CC BY 2.0)

一如往常,AlphaGo Master 誕生後團隊也進行了新舊對弈,結果 Master 的勝率卻來到 95%,高到一度讓團隊以為這是 bug,Master 甚至可以在讓 3 子不貼目的情況下獲勝。

在這之後,黃士傑試著說服團隊上網對弈測試 Master 的能耐。就在提出想法後沒幾天,剛回到台灣的黃士傑便接到 Hassabis 開始進行對弈的通知,Master 的第一盤網路對弈就在台灣登場了。

黃士傑認為,網路對弈的這 60 盤棋對他來說是最重要的第二個時刻,由於團隊在低調考量之下決定暫時保密 Master 的身分,卻完全沒想到會出這麼大的新聞。

「因為那是一個全新的帳號、沒有對戰紀錄,所以第一天要求對戰時被職業棋士拒絕,但到了第二天就換我開始拒絕別人。第三天開始觀戰的人變得很多,我都很害怕點錯,想說 AlphaGo 不能因為我輸掉。」

黃士傑表示,因為他自己也有在下圍棋,所以就像許多業餘棋手,也會一直期盼能和一些知名棋士下棋。當他操作 AlphaGo Master 網路對弈時,碰到許多對手都是他從小就崇拜的對象,所以雖然不是真的自己在下,但也很開心。

與柯潔的世紀之戰

黃士傑印象最深的第三個時刻和許多人相同,便是前往中國烏鎮與柯潔對弈。

黃士傑表示,當初在南韓與李世乭對弈時氣氛比較沉重,李世乭的認真有一種「為人類奮鬥」的感覺,當然這可能也與團隊希望獲得此次勝利來證明 AlphaGo 的實力有關。

到了中國烏鎮時,整體氣氛比較愉快,柯潔的棋力也確實讓 DeepMind 感到非常驚奇,黃士傑指出,當初在網路與眾多職業棋士對弈時,大約至 50 手左右 AlphaGo 的勝率評估就會呈現完全傾斜,無一例外。

(Source:達志影像)

在與柯潔下第二盤棋時,Hassabis 曾在過程中發推特稱讚柯潔表現不可思議,黃士傑也有同樣想法,因為至 50 手左右,AlphaGo 的勝率評估還是呈現拉鋸狀態,「他是唯一一個人類可以跟 AlphaGo 下到這種地步。」

雖然並未激盪出像與柯潔下棋那樣的火花,但黃士傑認為烏鎮後續的人機合作、團體賽都非常有趣,因為這些賽事帶來一種 AI 與人合作的氣氛,而這正也是 DeepMind 想強調的:AI 是工具,會幫助人類。

忘掉一切,左右互搏

AlphaGo Zero 其實是在創造出 Master 幾個月後生出來的,當時 Hassabis 認為該階段的 AlphaGo 已經完成所有任務,必須繼續往前,於是便要求團隊開始著手進行。

Zero 版本的概念其實很簡單,就是將「人類知識」全部拿掉,只讓 AlphaGo 了解圍棋最基本的規則:棋盤是 19×19、雙方分執黑白子、不能移動棋子、圍地決勝……等,任何人類得出的概念都沒有輸入,Zero 完全從零開始。

「在一開始預期裡,我認為 Zero 絕對打不贏 Master,畢竟圍棋有幾千年歷史, 難道學幾個月就可以贏嗎?」

(Source:DeepMind 影片截圖

而這段教導 AlphaGo Zero 的過程,也是黃士傑印象最深的第四個時刻。黃士傑表示,當初團隊要創造 Zero 時,他有點懷疑其中的可行性,但 Zero 最後確實證明了自己的實力。

由於對基本概念全然未知,黃士傑形容 Zero 最初下棋時簡直是「徹底亂下」,因為團隊是採用兩台 Zero 互相對弈的方式,雙方經常會下滿整個棋盤,過程中也經常出現卡住狀態。

但隨著團隊不斷調整系統,Zero 在左右互搏之間逐漸摸索出道路,短短幾個小時之間,一些人們下棋時常見的套路就出現了。「看著 AlphaGo 自己發現我們那些從小學習的理論,那種感覺很有趣。」

Zero 進步的速度遠比 DeepMind 想像得還快,黃士傑將 Zero 形容為「3 天走過幾千年圍棋史」;訓練到第 21 天時,Zero 已達到 Master 下棋的水準,到了第 40 天時,Zero 已經超越了 Master。

黃士傑表示,Zero 讓他想起當初在師大念博士班時沒日沒夜研究 ERICA 的日子,那幾十年在電腦上研究的時間一下子就被 Zero 幾十天內超越了,讓他一度感到心情非常複雜。

但後來他還是想通了,因為作為電腦圍棋的發展趨勢,這段過程勢必無法避免,以 Zero 的棋力為收尾是再好不過,「如果『我』會成為 Zero 的阻礙,那的確應該拿掉。」

人因夢想而偉大

談到最後,黃士傑感嘆,到了後期他經常看不懂 AlphaGo 下棋的套路,神經網路真的太強了,儘管如此,能夠透過 AlphaGo 讓喜愛的圍棋受到許多人關注,這令他非常開心,「好像作夢一樣」。

(Source:2017 台灣人工智慧年會

黃士傑認為,AlphaGo 的成功除了說明團隊合作與硬體設備的重要,也是深度學習與強化學習的勝利,Zero 更展示了強化學習的巨大潛力,未來甚至有可能逐漸用到其他應用,帶來更多改變。

當然以目前來說,考量到研究經費,不屬於大企業的研究團隊要打造出類似 AlphaGo 的軟體不太實際,但黃士傑表示,許多科學研究一開始就非常昂貴,DeepMind 只是希望運用 AlphaGo 探索極限,告訴大家這些事情是有可能做到的。

雖然母公司 Alphabet 目前仍沒有打算將 AlphaGo Zero 開源,但黃士傑強調,公開的論文他寫得很清楚,複製應該不會太難,「我們只是做出第一個版本,後面當然都還有再優化的可能。」

儘管 Zero 確實展現出 AI 在特定範圍的能耐,但 DeepMind 認為距離要發展出「強人工智慧」(Strong AI)還有非常長的一段距離。黃士傑表示,一些同事覺得還需要 30 年,一些人認為要 100 年,無論如何可以確定的是,做出意識本質會是更遙遠的事。

但黃士傑相信,至少在可見的未來,AI 會成為人類的工具、與人類合作,就像中國烏鎮的棋賽。

(首圖來源:2017 台灣人工智慧年會

延伸閱讀: