人類若被 AI 毀滅，一定是從教它玩〈當個創世神〉開始

上週幾乎是前腳追後腳，輝達和中國幾家科研機構分別公布內容相似的論文。首先輝達開發全新遊戲 AI 智慧體（Agent）──「Voyager」，將 AI 大模型 GPT-4 接入沙盒遊戲〈當個創世神〉（Minecraft）。

基於GPT-4，Voyager能在〈當個創世神〉擴充物品和裝備，建造房屋、挖礦、收集仙人掌和狩獵等；也能獨立探索，去不同城市和地點，甚至自己做傳送門。輝達稱Voyager在〈當個創世神〉收集物品增加3.3倍，旅行距離增加2.3倍，解鎖關鍵技能樹的速度也比以前快15.3倍。

（Source：Voyager）

接著是商湯科技聯合清華大學、上海人工智慧實驗室等機構公布通用AI智慧體「Ghost in the Minecraft」（GITM）。

同樣是將大語言模型（LLM）整合進〈當個創世神〉，GITM主世界所有技術挑戰達成100%任務涵蓋率（成功通關解鎖完整科技樹），之前所有智慧體總和只涵蓋30%；另外「獲取鑽石」任務，GITM成功率達67.5%，比最佳成績OpenAI的VPT法大幅提高47.5%。

▲ GITM〈當個創世神〉任務涵蓋率遠高於現有AI。（Source：Github）

說白點，兩邊都選擇用〈當個創世神〉訓練AI，且AI都比真人玩家完成更多任務，堪比以假亂真（幾個月前還是不可能的事）。先拋開看起來艱澀的技術細節，為何兩邊不約而同用〈當個創世神〉做實驗？

〈當個創世神〉就是大型AI實驗場

說起用〈當個創世神〉訓練的AI，可就太多了。著名的莫拉維克悖論這麼說：一些任務對人類很困難，如下棋，但對AI很簡單；像〈當個創世神〉這類開放沙盒與環境互動、規劃和決策等對人類來說簡單的事，對AI卻是大挑戰。

正因這種情況，幾年前AI不如現在發達時，科學家最初只用〈當個創世神〉訓練AI完成簡單指令。2019年Facebook研發過〈當個創世神〉AI助理「craftassist bot」，這是智慧助理機器人，執行玩家指定的各種任務，如馴服馬匹、建造城市、與村民會面及交易等。

也是2019年，卡內基美隆大學、微軟、DeepMind和OpenAI，聯合機器學習頂級會議NeurIPS舉辦「MineRL」專門用〈當個創世神〉為範圍的AI比賽，到2022年共舉行四屆，同樣見證AI應用從簡單到複雜的過程。

第一屆MineRL還很簡單：看哪個團隊能創造成功開採鑽石的AI。不過很慘，最後900多個頂尖團隊沒有一個完成挑戰，某些AI砍好木頭卻不會合成，某些AI做出熔爐卻不會冶煉，某些AI知道去地下挖礦，卻只會垂直往下挖。第三屆比賽內容就變成看誰能訓練出高效率AI，冠軍是以76.970分奪冠的騰訊AI Lab「絕悟」。

其實各大公司開始密集用〈當個創世神〉訓練AI也是近五年的事。美國國防高等研究計劃署（DARPA）2020年8月啟動自適應分佈式機率任務分配（ADAPT）計畫，以期戰場利用AI協助指揮官下決策，承包商Aptima公司就是用〈當個創世神〉訓練AI與人類互動。

2021年哥本哈根資訊科技大學、紐約大學和上海大學研究者也創建過3D神經元自動機（Neural Cellular Automata，NCA）系統，並放入〈當個創世神〉，這時NCA已可建造毛毛蟲、城堡、公寓和樹等複雜物體。

比較知名的實驗是去年。OpenAI 2022年宣布AI已可熟練遊玩〈當個創世神〉，引入新穎方便的AI訓練法「影片預訓練」（Video PreTraining），從合作方取得展示影片及影片配套鍵鼠操作紀錄，再「投餵」給AI 7萬小時後，AI操作就相當熟練，掌握人類才能領悟的高階玩法。

DeepMind也在今年初開發媲美OpenAI成果的AI，名為「DreamerV3」。DreamerV3不用任何人類資料輔助，丟進〈當個創世神〉自己摸爬滾打17天，驚人地學會如何從零開始挖鑽石，成了世界第一個自己摸索，就能速挖鑽石的AI。

Introducing DreamerV3: the first general algorithm to collect diamonds in Minecraft from scratch – solving an important challenge in AI. 💎

It learns to master many domains without tuning, making reinforcement learning broadly applicable.

Find out more: https://t.co/7GP0R93Yvc pic.twitter.com/YacIDojAF1

— Google DeepMind (@DeepMind) January 11, 2023

MineRL比賽發起人之一William Guss都忍不住第一時間賀電：4年了，「鑽石挑戰」終於克服了！

沒有比〈當個創世神〉更適合的實驗室了

〈當個創世神〉問世12年，為世界最受歡迎的遊戲之一，許多玩家形容為電子版樂高，2019年就超過〈俄羅斯方塊〉成為全球銷量最高的遊戲。「開放世界」屬性更讓它成為科學家訓練AI的絕佳場所。

與〈英雄聯盟〉等單一戰略對戰遊戲不同，〈當個創世神〉並沒有終極目標，僅有兩種模式是「生存」和「創造」。「生存」模式玩家要建造房子並收集物品，活越久越好，即使是擊退殭屍和蜘蛛的劍也需要玩家用木材和鐵礦鍛造；「創造」模式更自由，玩家可用各種材質立方體構建房屋和工具材料，且遊戲永遠不會結束。

如果說〈英雄聯盟〉或棋類遊戲因簡單規則和機制，讓AI以極快速度學習並超越戰勝人類，〈當個創世神〉的複雜程度就幾乎是挑戰AI極限。多樣環境、完全靠隨機種子產生的地圖、長決策序列與複雜技能學習、高自由玩法等海量策略偏好，都增加AI研究的難度。

要AI在15分內找到鑽石，需經歷徒手採集原木、合成木板、木棍與木鎬，採集鐵礦，經過一系列加工才能合成鑽石，看似只是件小事，但對AI來說卻需要掌握很複雜的邏輯關係──這還只是〈當個創世神〉的一小部分。除了製造工具，AI還需自己設定目標，學著探索遊戲，直到解鎖所有任務。

▲〈當個創世神〉挖鑽石步驟。

如果只是學下棋或玩〈英雄聯盟〉，AI只需要知道怎麼贏就行了。是否覺得，去〈當個創世神〉訓練過的AI高級多了？（雖然學習速度可能慢了點）

目前AI研究，科學家越來越追求通用人工智慧（AGI），打造更通用的AI，也就是AI能掌握廣泛技能，適應各種環境，深入模擬人類解決複雜問題的能力，像人感知、理解和互動，而不是只會回答簡單問題、下棋贏人類的「小打小鬧」AI。這代表要訓練通用AI，〈當個創世神〉環境非常適合。

不過開放沙盒遊戲那麼多，為什麼偏偏是〈當個創世神〉？有網友在Twitter問開發Voyager的輝達首席科學家Jim Fan，既然Voyager是為開放世界而生，為什麼沒選擇用〈薩爾達傳說〉系列或〈艾爾登法環〉等遊戲訓練AI？

Jim Fan回答，主要難點並不是演算法，而是因為〈薩爾達傳說〉和〈艾爾登法環〉等運用「緩慢且難以用程式控制高階控制台」，且「需要好程式API控制角色」。而〈當個創世神〉技術門檻更低，目標和玩法類似，其實降低訓練AI的難度。

I’ve been dreaming about these for a while. The main difficulty is not the algorithm, but:
– Simulator: slow and difficult to programmatically control high-end consoles.
– API: needs a good coding API to control the character. Pixel -> action is way too hard in Zelda & Elden… https://t.co/aEZ0hwNpZ6

— Jim Fan (@DrJimFan) May 29, 2023

且〈當個創世神〉對開發者也很友善，許多構建〈當個創世神〉的程式庫都開源，所以人們很容易修改，也允許研究員記錄和學習玩家如何完成任務，觀察他們如何與AI合作。從這些方面看，沒有比〈當個創世神〉更適合訓練AI的遊戲了。

這次〈當個創世神〉的新AI有什麼特別？

輝達Voyager，和商湯科技聯合清華大學、上海人工智慧實驗室的GITM，與過去基於〈當個創世神〉訓練的AI最大不同在於，引入大型語言模型（LLM）為訓練核心。以往〈當個創世神〉訓練AI主流法是模仿學習和強化學習。即便OpenAI和DeepMind開發的最先進AI，訓練法也是模仿學習和強化學習。

如果想讓AI學會挖礦，模擬學習要做的就是先餵給AI上萬支遊戲影片，讓它分析學習為什麼要砍樹，如何利用工作台分解合成，如何做出鎬子，如何冶煉鐵錠，製作鐵鎬，挖鑽石，如何避免落入岩漿，如何戰鬥等必要步驟。投餵學習結束，AI接下來要接受強化學習，也就是把AI扔進遊戲「真正」去挖礦，藉反覆實驗發現和解決問題，學會挖礦技能。

但用大型語言模型訓練法，AI學習邏輯完全重構。再用挖礦舉例，AI首先根據「盡可能多發現材料幫助挖礦」的總體目標提問、自動產生許多小任務，儲存有助成功解決某任務的程序（比如先砍樹再合成確定正確，做出熔爐就要冶煉也正確），AI就會逐漸建立正確挖礦技能庫。之後再遇到挖礦任務，AI就可根據描述去技能庫檢索任務步驟。