為了讓 AI 不斷打怪升級，DeepMind 打造「宇宙」

DeepMind 又給我們小驚喜。我們都知道，強化學習苦於類化能力差，經常只能針對單個任務從頭學習。

DeepMind之前開發的AlphaZero，儘管可以玩圍棋、西洋棋和日本將棋，但每種棋牌遊戲都只能從頭訓練。類化能力差也是AI一直被詬病為人工智障的一大原因。人類智慧的厲害之處，就在藉鑑之前經驗迅速適應新環境。

但類化能力不是一蹴而就，就像玩遊戲，也是先做簡單任務，逐步升級到複雜任務。《空洞騎士》（Hollow Knight）一開始只需要隨意走動揮刀砍怪，但噩夢級難度的「苦痛之路」關，沒有前面累積的技巧，只能玩寂寞。

多任務宇宙

DeepMind此次採用「課程學習」，讓智慧體於不斷擴展升級的開放世界學習。也就是說，AI新任務（訓練資料）是基於舊任務不斷生成。智慧體可盡情鍛鍊自己，簡單的如「靠近紫色立方體」，複雜點的如「靠近紫色立方體或將黃色球體放在紅色地板」，甚至和其他智慧體玩耍，如捉迷藏──「找到對方，且不要被對方發現」。

每個小遊戲存在世界小角落，千千萬萬個小角落拼成龐大的物理模擬世界，如下圖的幾何「地球」。總體來說這個世界的任務由三個要素構成，即任務＝遊戲＋世界＋玩家，並根據三要素關係，決定任務的複雜度。

複雜度的判斷有四個維度：競爭性、平衡性、可選項、探索難度。

比如「搶方塊」遊戲，藍色智慧體需要把黃色方塊放到白色區域，紅色智慧體需要把黃色方塊放到藍色區域。這兩個目標矛盾，因此競爭性較強；同時雙方條件對等，平衡性比較高；因目標簡單，所以可選項少；DeepMind把探索難度評為中上，可能是因定位區域算較複雜的場景。

再如「球球喜歡和方塊一起玩」遊戲，藍色和紅色智慧體有共同目標，讓相同顏色的球體和方塊放在相近位置。

這時競爭性自然很低，平衡性毋庸置疑很高的；可選項比上面遊戲高很多；探索難度沒有定位區域，智慧體隨便把球體和方塊放哪都行，難度就變小了。

基於這四個維度，DeepMind打造超大規模的Metaverse「宇宙」任務空間，幾何「地球」也只是這宇宙的小角落，是四維任務空間的一點。DeepMind將「宇宙」命名為XLand，包含數十億個任務。

來看XLand的全貌，由一系列遊戲組成，每個遊戲在許多模擬世界進行，這些世界的拓樸和特徵平滑變化。

終生學習

數據有了，接下來得找到合適的算法。 DeepMind發現，目標注意代理（GOAT）可學習更通用的策略。

具體來說，智慧體輸入包括第一視角的RGB圖像、本體感覺以及目標。經過初步處理後，生成中間輸出，傳遞給GOAT模組，會根據智慧體目前目標處理中間輸出的特定部分，邏輯分析目標。

邏輯分析是指，每個遊戲可藉由一些方法，構建另一個遊戲，並限制策略的價值函數的最優值上限或下限。

DeepMind提出一個問題：對每個智慧體，什麼樣的任務是最好的？換句話說，打怪升級時，什麼樣的關卡設置才讓玩家順利升級為「真」高手，而不是一刀9999？

DeepMind的答案是，每個新任務都基於舊任務生成，「不會太難，也不會太容易」。其實恰好是讓人類學習時感覺「爽」的興奮點。

訓練開始時，太難或太容易的任務可能會鼓勵早期學習，但會導致訓練後期的學習飽和或停滯。不要求智慧體某任務非常優秀，而是鼓勵終身學習，即不斷適應新任務。所謂太難、太容易是較模糊的描述。需要量化方法，在新任務和舊任務之間彈性連接。

怎麼不讓智慧體做新任務時不適應而「暴死」？進化學習就提供很好的靈活性。總體來說，新任務和舊任務同時進行，且每個任務有多智慧體參與「競爭」。舊任務適應好的智慧體，會選拔到新任務繼續學習。

新任務中，舊任務的優秀智慧體權重、瞬間任務分佈、超參數都會複製，參與新一輪「競爭」。除了舊任務的優秀智慧體，還有很多新人參與，這就引進隨機性、創新性、靈活性，不用擔心「暴死」問題。

當然，因任務不斷生成、動態變化，一個任務可訓練不同長處的智慧體，並往不同方向演化（隨著智慧體相對性能和強健性進行）。最終每個智慧體都會形成擅長任務的集合，就像春秋戰國時期「百家爭鳴」。說打怪升級顯得格局小，簡直是模擬地球。

DeepMind表示，「這種組合學習系統的特性是，不最佳化有界性能指標，而是更新定義的通用能力範圍，這使智慧體開放式學習，僅受環境空間和智慧體的神經網路表達能力的限制。」

智慧初現

最終這複雜「宇宙」升級、進化、分流的智慧體長成了什麼優秀物種？DeepMind說，智慧體有很明顯的零樣本學習能力，比如使用工具、合圍、數數、合作＋競爭等。

來看具體例子。首先智慧體學會臨機應變。目標有三個：

黑色金字塔放到黃色球體旁邊
紫色球體放到黃色金字塔旁邊
黑色金字塔放到橙色地板

AI一開始找到一個黑色金字塔，想拿到橙色地板（目標3），但搬運過程瞄見黃色球體，瞬間改變主意，「我可以實現目標1啦」，將黑色金字塔放到黃色球體旁邊。

第二個例子是，不會跳高，怎麼拿到高台上的紫色金字塔？智慧體需要想辦法突破障礙，取得高台上的紫色金字塔，高台周邊並沒有類似階梯、斜坡的路。

因不會跳高，所以智慧體「掀桌子」，把周邊幾塊豎起來的板子弄倒。然後一塊黑色石板剛好倒在高台邊，「等等，這不就是我要的階梯嗎？」這過程是否體現了慧體的智慧，還無法肯定，可能只是一時幸運。關鍵還是，要看統計數據。

經過5代訓練，智慧體在XLand的4千個獨立世界玩了約70萬個獨立遊戲，涉及340萬個獨立任務，最後一代每個智慧體都經歷2千億次訓練步驟。智慧體已能順利參與幾乎每個評估任務，除了少數即使人類也無法完成的任務。

DeepMind的研究，或許一定程度體現「密集學習」重要性。也就是說，不僅資料量要大，任務量也要大。這也使得智慧體在類化能力有很好表現，如資料顯示，只需對一些新複雜任務進行30分鐘集中訓練，智慧體就可快速適應，而從頭開始用強化學習訓練的智慧體根本無法學習這些任務。

往後我們也期待這「宇宙」更複雜和生機勃勃，AI經過不斷演化，不斷給我們帶來驚喜（細思極恐）的體驗。

（本文由雷鋒網授權轉載；圖片來源：DeepMind）

多任務宇宙

終生學習

智慧初現

延伸閱讀：

想請我們喝幾杯咖啡？

每杯咖啡 65 元

留給我們的話

登入裝置已達上限