人類若被 AI 毀滅,一定是從教它玩〈當個創世神〉開始

作者 | 發布日期 2023 年 06 月 07 日 8:20 | 分類 AI 人工智慧 , 遊戲軟體 line share follow us in feedly line share
人類若被 AI 毀滅,一定是從教它玩〈當個創世神〉開始


上週幾乎是前腳追後腳,輝達和中國幾家科研機構分別公布內容相似的論文。首先輝達開發全新遊戲 AI 智慧體(Agent)──「Voyager」,將 AI 大模型 GPT-4 接入沙盒遊戲〈當個創世神〉(Minecraft)。

基於GPT-4,Voyager能在〈當個創世神〉擴充物品和裝備,建造房屋、挖礦、收集仙人掌和狩獵等;也能獨立探索,去不同城市和地點,甚至自己做傳送門。輝達稱Voyager在〈當個創世神〉收集物品增加3.3倍,旅行距離增加2.3倍,解鎖關鍵技能樹的速度也比以前快15.3倍。

(Source:Voyager

接著是商湯科技聯合清華大學、上海人工智慧實驗室等機構公布通用AI智慧體「Ghost in the Minecraft」(GITM)。

同樣是將大語言模型(LLM)整合進〈當個創世神〉,GITM主世界所有技術挑戰達成100%任務涵蓋率(成功通關解鎖完整科技樹),之前所有智慧體總和只涵蓋30%;另外「獲取鑽石」任務,GITM成功率達67.5%,比最佳成績OpenAI的VPT法大幅提高47.5%。

▲ GITM〈當個創世神〉任務涵蓋率遠高於現有AI。(Source:Github

說白點,兩邊都選擇用〈當個創世神〉訓練AI,且AI都比真人玩家完成更多任務,堪比以假亂真(幾個月前還是不可能的事)。先拋開看起來艱澀的技術細節,為何兩邊不約而同用〈當個創世神〉做實驗?

〈當個創世神〉就是大型AI實驗場

說起用〈當個創世神〉訓練的AI,可就太多了。著名的莫拉維克悖論這麼說:一些任務對人類很困難,如下棋,但對AI很簡單;像〈當個創世神〉這類開放沙盒與環境互動、規劃和決策等對人類來說簡單的事,對AI卻是大挑戰。

正因這種情況,幾年前AI不如現在發達時,科學家最初只用〈當個創世神〉訓練AI完成簡單指令。2019年Facebook研發過〈當個創世神〉AI助理「craftassist bot」,這是智慧助理機器人,執行玩家指定的各種任務,如馴服馬匹、建造城市、與村民會面及交易等。

也是2019年,卡內基美隆大學、微軟、DeepMind和OpenAI,聯合機器學習頂級會議NeurIPS舉辦「MineRL」專門用〈當個創世神〉為範圍的AI比賽,到2022年共舉行四屆,同樣見證AI應用從簡單到複雜的過程。

第一屆MineRL還很簡單:看哪個團隊能創造成功開採鑽石的AI。不過很慘,最後900多個頂尖團隊沒有一個完成挑戰,某些AI砍好木頭卻不會合成,某些AI做出熔爐卻不會冶煉,某些AI知道去地下挖礦,卻只會垂直往下挖。第三屆比賽內容就變成看誰能訓練出高效率AI,冠軍是以76.970分奪冠的騰訊AI Lab「絕悟」。

其實各大公司開始密集用〈當個創世神〉訓練AI也是近五年的事。美國國防高等研究計劃署(DARPA)2020年8月啟動自適應分佈式機率任務分配(ADAPT)計畫,以期戰場利用AI協助指揮官下決策,承包商Aptima公司就是用〈當個創世神〉訓練AI與人類互動。

2021年哥本哈根資訊科技大學、紐約大學和上海大學研究者也創建過3D神經元自動機(Neural Cellular Automata,NCA)系統,並放入〈當個創世神〉,這時NCA已可建造毛毛蟲、城堡、公寓和樹等複雜物體。

比較知名的實驗是去年。OpenAI 2022年宣布AI已可熟練遊玩〈當個創世神〉,引入新穎方便的AI訓練法「影片預訓練」(Video PreTraining),從合作方取得展示影片及影片配套鍵鼠操作紀錄,再「投餵」給AI 7萬小時後,AI操作就相當熟練,掌握人類才能領悟的高階玩法。

DeepMind也在今年初開發媲美OpenAI成果的AI,名為「DreamerV3」。DreamerV3不用任何人類資料輔助,丟進〈當個創世神〉自己摸爬滾打17天,驚人地學會如何從零開始挖鑽石,成了世界第一個自己摸索,就能速挖鑽石的AI。

MineRL比賽發起人之一William Guss都忍不住第一時間賀電:4年了,「鑽石挑戰」終於克服了!

沒有比〈當個創世神〉更適合的實驗室了

〈當個創世神〉問世12年,為世界最受歡迎的遊戲之一,許多玩家形容為電子版樂高,2019年就超過〈俄羅斯方塊〉成為全球銷量最高的遊戲。「開放世界」屬性更讓它成為科學家訓練AI的絕佳場所。

與〈英雄聯盟〉等單一戰略對戰遊戲不同,〈當個創世神〉並沒有終極目標,僅有兩種模式是「生存」和「創造」。「生存」模式玩家要建造房子並收集物品,活越久越好,即使是擊退殭屍和蜘蛛的劍也需要玩家用木材和鐵礦鍛造;「創造」模式更自由,玩家可用各種材質立方體構建房屋和工具材料,且遊戲永遠不會結束。

如果說〈英雄聯盟〉或棋類遊戲因簡單規則和機制,讓AI以極快速度學習並超越戰勝人類,〈當個創世神〉的複雜程度就幾乎是挑戰AI極限。多樣環境、完全靠隨機種子產生的地圖、長決策序列與複雜技能學習、高自由玩法等海量策略偏好,都增加AI研究的難度。

要AI在15分內找到鑽石,需經歷徒手採集原木、合成木板、木棍與木鎬,採集鐵礦,經過一系列加工才能合成鑽石,看似只是件小事,但對AI來說卻需要掌握很複雜的邏輯關係──這還只是〈當個創世神〉的一小部分。除了製造工具,AI還需自己設定目標,學著探索遊戲,直到解鎖所有任務。

▲〈當個創世神〉挖鑽石步驟。

如果只是學下棋或玩〈英雄聯盟〉,AI只需要知道怎麼贏就行了。是否覺得,去〈當個創世神〉訓練過的AI高級多了?(雖然學習速度可能慢了點)

目前AI研究,科學家越來越追求通用人工智慧(AGI),打造更通用的AI,也就是AI能掌握廣泛技能,適應各種環境,深入模擬人類解決複雜問題的能力,像人感知、理解和互動,而不是只會回答簡單問題、下棋贏人類的「小打小鬧」AI。這代表要訓練通用AI,〈當個創世神〉環境非常適合。

不過開放沙盒遊戲那麼多,為什麼偏偏是〈當個創世神〉?有網友在Twitter問開發Voyager的輝達首席科學家Jim Fan,既然Voyager是為開放世界而生,為什麼沒選擇用〈薩爾達傳說〉系列或〈艾爾登法環〉等遊戲訓練AI?

Jim Fan回答,主要難點並不是演算法,而是因為〈薩爾達傳說〉和〈艾爾登法環〉等運用「緩慢且難以用程式控制高階控制台」,且「需要好程式API控制角色」。而〈當個創世神〉技術門檻更低,目標和玩法類似,其實降低訓練AI的難度。

且〈當個創世神〉對開發者也很友善,許多構建〈當個創世神〉的程式庫都開源,所以人們很容易修改,也允許研究員記錄和學習玩家如何完成任務,觀察他們如何與AI合作。從這些方面看,沒有比〈當個創世神〉更適合訓練AI的遊戲了。

這次〈當個創世神〉的新AI有什麼特別?

輝達Voyager,和商湯科技聯合清華大學、上海人工智慧實驗室的GITM,與過去基於〈當個創世神〉訓練的AI最大不同在於,引入大型語言模型(LLM)為訓練核心。以往〈當個創世神〉訓練AI主流法是模仿學習和強化學習。即便OpenAI和DeepMind開發的最先進AI,訓練法也是模仿學習和強化學習。

如果想讓AI學會挖礦,模擬學習要做的就是先餵給AI上萬支遊戲影片,讓它分析學習為什麼要砍樹,如何利用工作台分解合成,如何做出鎬子,如何冶煉鐵錠,製作鐵鎬,挖鑽石,如何避免落入岩漿,如何戰鬥等必要步驟。投餵學習結束,AI接下來要接受強化學習,也就是把AI扔進遊戲「真正」去挖礦,藉反覆實驗發現和解決問題,學會挖礦技能。

但用大型語言模型訓練法,AI學習邏輯完全重構。再用挖礦舉例,AI首先根據「盡可能多發現材料幫助挖礦」的總體目標提問、自動產生許多小任務,儲存有助成功解決某任務的程序(比如先砍樹再合成確定正確,做出熔爐就要冶煉也正確),AI就會逐漸建立正確挖礦技能庫。之後再遇到挖礦任務,AI就可根據描述去技能庫檢索任務步驟。

▲ 大型語言模型訓練法的GITM。(Source:Github

也就是說,大型語言模型訓練法的AI可自動探索並掌握技能,使其更能幫助AI成為終身學習者,長時間逐步取得、更新、積累和轉移知識,同時緩解其他持續學習法的「災難性遺忘」。有點像一直讓AI待在學校裡讀書,還是一開始就叫AI去社會摸索的差別。總而言之,大型語言模型法訓練的AI更像真人。

▲ Voyager探索物品量高於許多AI。(Source:Voyager

理想AI應有與人類相似的能力,〈當個創世神〉AI不管技能程度和世界狀態提出合適任務(發現自己身處沙漠而不是森林,就會在打鐵前學會取得沙子和仙人掌)、根據環境回饋完善技能並記住學過的技能(如打殭屍和打蜘蛛的技能類似),還是不斷探索世界,自動尋找新任務,都和現實人類決策過程和行為非常接近。

說〈當個創世神〉是個縮小版現實世界也不誇張,讓人細思極恐的是,隨著Voyager和GITM研究成果發表,AI已能破關〈當個創世神〉了。

不禁讓人想到,AI是否很快就能在現實世界如魚得水?它能像人生活,會做飯、會用手機、知道怎麼穿衣服、怎麼養寵物、怎麼搭乘大眾交通工具……更不可思議的是,它還能像人有想法,知道穿哪件衣服好看,怎麼做飯更好吃,電話應該打給誰……說不定不久的將來,我們遇到的「人」,已無法分辨是不是AI。

既然都能破關〈當個創世神〉了,AI過過「人的生活」,技術上來講也不是不能可能。而人類又會如何選擇?

(本文由 品玩 授權轉載;首圖來源:Flickr/downloadsource.fr CC BY 2.0)