DeepMind 在多智慧體強化學習又有新進展,最新成果登上《Science》

作者 | 發布日期 2019 年 06 月 26 日 8:00 | 分類 AI 人工智慧 , 軟體、系統 follow us in feedly


集體智慧(collective intelligence)是人工智慧研究浪潮中不可忽視的重要課題。然而,智慧體如何在邊界開放、約束動態的環境下學到知識並團隊協作,仍是極具挑戰性的難題。DeepMind 近年來針對基於種群的多智慧體強化學習大量研究,最新研究成果近日發表在國際權威雜誌《Science》。DeepMind 在部落格發文介紹這項成果,編譯如下。

智慧體在多玩家電子遊戲掌握策略、理解戰術及團隊合作是人工智慧研究領域的重大挑戰。我們發表在《Science》雜誌的最新論文《Human-level performance in 3D multiplayer games with population-based reinforcement learning》,展示了智慧體在強化學習領域的最新進展,在《雷神之鎚 III 競技場》(Quake III Arena)奪旗賽(CTF)取得與人類相當的性能。這是一個複雜的多智慧體環境,也是第一人稱多玩家的經典 3D 遊戲之一。這些智慧體成功與 AI 隊友和人類隊友合作,表現出很高的性能,即使在訓練時,反應時間表現也與人類相當。此外,我們還展示了如何成功將這些方法從研究 CTF 環境擴展到完整的《雷神之鎚 III 競技場》遊戲。

▲ 玩 CTF 遊戲的智慧體,以其中一個紅色玩家為第一人稱視角展現的室內環境(左圖)和室外環境(右圖)。

▲ 智慧體在完整的錦標賽地圖的另外兩個《雷神之鎚 III 競技場》多人遊戲模式下進行遊戲:在「Future Crossings」地圖進行收割者模式(左圖),在「ironwood」地圖進行單旗奪旗模式(右圖),遊戲中可拾取並使用完整版遊戲的所有的道具。

目前數十億人住在地球上,每個人都有自己的目標和行為。但人們仍能透過團隊、組織和社會團結在一起,展示出非凡的集體智慧。我們將這種情況稱為多智慧體學習:許多獨立的智慧體必須單獨行動,但同時也要學會與其他智慧體互動和合作。這是非常困難的問題,因為需要適應其他智慧體,所處的世界環境就會不斷變化。

為了研究這個問題,我們著眼於第一人稱的多人三維電子遊戲。這些遊戲也代表目前最流行的一類電子遊戲,由於能為用戶提供沉浸式遊戲體驗,這類遊戲充分開發數百萬玩家的想像力,同時也對玩家在策略、戰術、手眼協調及團隊合作等方面提出挑戰。我們的智慧體面臨的挑戰便是直接利用原始像素生成決策行為。這種複雜性也使第一人稱多人遊戲在人工智慧領域成為碩果累累、朝氣蓬勃的專題研究。

奪旗賽:根據像素做動作決策

這項研究中,我們聚焦於《雷神之鎚 III 競技場》(保證所有遊戲機制不變的情況下,我們微調了美工)。《雷神之鎚 III 競技場》是許多現代第一人稱電子遊戲的奠基者,曾在電子競技舞台風靡一時。我們訓練智慧體像人類玩家學習和行動,但它們必須以團隊合作方式與其他智慧體(無論 AI 玩家還是人類玩家)合作或對抗。

CTF 的規則很簡單,但動態變化非常複雜。兩隊獨立玩家比賽的方式是:在給定的地圖以奪取對方隊伍的旗幟為目標,同時保護自己的旗幟。為了獲得戰術優勢,玩家可攻擊對方戰隊的玩家,將之送回復活點。5 分鐘的遊戲時間結束後,獲得旗幟數量最多的隊伍獲得勝利。

從多智慧體視角來說,CTF 要求玩家同時做到與隊友通力合作及與對手隊伍對抗,並且還要對可能遇到的任何比賽方式保持強健性。

為了讓工作更有趣,我們還考慮了 CTF 變體形式,其中的地圖布局每經過一場比賽就會變化。結果,智慧體被迫取得通用策略,而不是記住地圖布局。此外,為了競爭公平性,智慧體在學習過程以與人類相似的方式探索 CTF 的世界:它們會觀察一組圖像的像素流,然後透過模擬的控制器採取行動。

在程序生成的環境進行 CTF,這樣一來智慧體的能力必須泛化到沒有見過的地圖。

智慧體必須從頭開始學會如何觀察環境、執行動作、合作及在未見過的環境競爭,所有這些都學自每場比賽的單個強化信號:它們的團隊是否獲勝。這是一個極具挑戰的學習問題,解決方案是以下強化學習的 3 種通用思想為基礎:

  • 我們訓練的是一個智慧體種群,而不是訓練單個智慧體。種群智慧體透過與其他智慧體進行遊戲來學習。在遊戲中,智慧體彼此的關係多種多樣,可能是隊友也可能是對手。
  • 種群中每個智慧體都需要學習自己的內部獎勵信號,這使智慧體生成自己的內部目標(例如奪取旗幟)。我們使用雙層優化處理的方式優化智慧體內部獎勵,進而直接獲勝,並且運用基於內部獎勵的強化學習技術來學習智慧體的遊戲策略。
  • 智慧體分別以快速和慢速兩種遊戲時標操作,這有助於提升它們使用記憶體和生成一致動作序列的能力。

「為了勝利」(FTW)智慧體的架構示意圖,融合快速和慢速兩種時標的循環神經網路(RNN),包括一個共享的記憶體模組,並學習從遊戲點到內部獎勵的轉換。

最終得到的智慧體稱為 FTW 智慧體,它們學習以非常高的水準外 CTF 遊戲。非常重要的一點是,學到的智慧體策略對地圖尺寸、隊友數量及隊伍其他成員等參數變化需要具強健性。以下,你可以探索一些戶外程式環境的遊戲(其中 FTW 智慧體相互對抗),也可以探索一些人類和智慧體在室內程式環境一起玩的遊戲。

▲ 互動式的 CTF 遊戲探索器,具有程序生成的室內和室外兩種環境。室外地圖上的遊戲在 FTW 智慧體之間開展,而室內地圖的遊戲則是人類和 FTW 智慧體玩家的混合遊戲。

我們進行一場包括 40 名人類玩家的遊戲比賽,人類玩家和智慧體隨機配對,既有可能成為對手,也可能成為隊友。

先前的測試比賽,對戰雙方是人類 CTF 玩家和受過訓練的其他人類玩家和智慧體。

FTW 智慧體透過學習變得比強基線方法強大得多,並超過人類玩家的勝率。事實上,針對遊戲參與者的調查,智慧體比人類表現出更高的合作性。

▲ 智慧體訓練時的性能。新 FTW 智慧體獲得比人類玩家和基線方法(Self-play+RS 和 Self-play)高的 Elo 等級分(對應獲勝概率)。

除了評估模型性能,理解這些智慧體的行為及內部表徵的複雜度也非常重要。

為了理解智慧體如何表示遊戲狀態,我們研究智慧體神經網路的觸發模式,並繪製在一個平面上。下圖中,一群群的點代表遊戲各種情景,相鄰的點則代表相似的觸發模式。我們根據高水準 CTF 遊戲狀態塗色這些點,包括:智慧體在哪個房間?旗幟的狀態如何?可以看到哪些隊友和對手?我們觀察到顏色相同的點簇,代表的是智慧體以相似的方式表示相似的高水準遊戲狀態。

▲ 智慧體如何表達遊戲世界?根據每個代表神經觸發模式的點與其他點的相似程度,繪製出某時刻的神經觸發模式示意圖:距離越近的兩個點觸發模式越相似。接著,我們會根據它們在該時刻的情景著色──相同顏色代表相同情景。可看到,這些神經元觸發模式組織起來,形成不同顏色的簇,這意味著智慧體確實以一種有規則、有組織的方式表示遊戲玩法某些有意義的因素。這些訓練後的智慧體甚至展示出直接編碼特定情況的人工神經元。

智慧體從未被告知任何有關遊戲規則的訊息,它們需要學習 CTF 的基本遊戲概念,並發展出有效的直覺。事實上,我們可以發現,某些特定神經元會直接編碼最重要的遊戲狀態(如當智慧體的旗幟被奪走,或智慧體的隊友拿到旗幟時,某個神經元就會觸發)。論文進一步分析智慧體利用記憶體和使用視覺注意力機制。

表現與人類相媲美的智慧體

智慧體的遊戲表現如何,又如何採取行動?

首先,我們注意到智慧體的反應時間非常短,且攻擊十分精準,這或許解釋了他們為什麼會有如此出色的表現(「攻擊」是一種戰術行為,能將對手送回出發點)。人類對這些感官輸入的處理和反應速度相對慢一些,這是因為人類的生物訊號比智慧體的電子訊號要慢。這有個反應時間測試的例子,可以自己動手試試。

因此,智慧體的卓越表現可能要歸功於更快的視覺處理和運動控制能力。然而,透過人為降低攻擊的準確率、增加反應時間,我們發現這只是它們取得成功的眾多因素之一。更深入的研究中,我們訓練了預設 1/4 秒(267 毫秒)延遲的智慧體。也就是說,這些智慧體在觀察世界前會有 267 毫秒滯後,這與統計的人類電子遊戲玩家反應時間相當。儘管如此,這些反應延遲的智慧體仍然比人類玩家的表現要好:人類玩家的強者在智慧體面前只有 21% 勝率。

▲ 人類玩家在反應延遲的智慧體面前,勝率也很低,這說明即使反應延遲時間與人類相當,智慧體也比人類玩家表現好。除此之外,透過觀察人類玩家和反應延遲的智慧體的玩遊戲情況,我們可以看到兩者發生攻擊事件的數目相當,說明這些智慧體在這方面與人類相比並不具優勢。

透過無監督學習,我們構建智慧體和人類的原型行為模式,發現智慧體實際上是學到類似人類的行為,例如跟隨隊友及在對手基地蹲點。

▲ 範例中,經過訓練的 3 個智慧體可以自動發現行為。

透過強化學習和種群水準演進,這些行為逐漸出現於訓練過程。隨著智慧體學會透過更複雜的方式合作,就會逐漸淘汰掉像跟隨隊友這樣的簡單行為。

▲ FTW 智慧體種群的訓練過程。左上角:30 個智慧體在訓練和相互演化的過程中得到的 Elo 等級評分。右上角:這些演化事件的遺傳樹。底部圖片顯示在智慧體的訓練過程中知識、內部獎勵及行為概率的變化情況。

未來的研究

儘管論文重點是 CTF,但我們的工作對科學研究的貢獻是通用的,我們非常樂見其他研究者基於我們的技術在各不相同的複雜環境開發相關技術。自從最初發表這些實驗結果以來,許多人成功將這些方法擴展到《雷神之鎚 III 競技場》完整遊戲,包括專業的遊戲地圖、更多 CTF 之外的多玩家遊戲模式,以及更多道具拾撿和使用動作。初步結果表明,智慧體可在多種遊戲模式和多張地圖表現出很強的競爭力,並在測試比賽開始逐漸對人類研究者的技能提出挑戰。實際上,這項工作提出的一些概念(如基於種群的多智慧體強化學習),構成我們對《星海爭霸 II:自由之翼》設計的「AlphaStar agent」智慧體基石。

在另外兩個《雷神之鎚 III 競技場》多人遊戲模式下的完整版錦標賽地圖進行遊戲的智慧體:「Future Crossing」地圖的收割者模式,以及「Ironwood」地圖的單旗奪旗模式。

總結來說,這項工作強調多智慧體訓練在推動人工智慧發展的潛力:利用多智慧體訓練提供的自然學習資訊,同時也能促使我們開發出甚至可與人類合作的強健智慧體。

(本文由 雷鋒網 授權轉載;首圖來源:pixabay