《星海爭霸 II》玩家,很快就可在天梯上為 DeepMind 的論文付出貢獻了

作者 | 發布日期 2019 年 07 月 15 日 9:00 | 分類 AI 人工智慧 , 軟體、系統 , 遊戲軟體 follow us in feedly


7 月 10 日晚上,暴雪聯合 DeepMind 發表新聞,DeepMind 開發的《星海爭霸 II》AI「AlphaStar」很快就會出現《星海爭霸 II》歐洲伺服器的 1v1 天梯比賽。人類玩家不僅有機會與 AI 配對、和它們展開標準比賽,比賽結果也會像正常比賽影響自己的天梯分數。

在《星海爭霸 II》做科研實驗

正如人盡皆知的圍棋 AI AlphaGo,DeepMind 喜歡的強化學習 AI 研究過程,是在某項比賽(博弈)環境進行技術探索,在新技術的輔助下讓智慧體從歷史數據學習、從自我博弈學習,然後與人類高手比賽,評估 AI 的水準。樊麾、李世乭、柯潔都光榮成為「人工智慧測試高級工程師」。

此次《星海爭霸 II》AI「AlphaStar」的研究過程,DeepMind 繼續沿用這個思路,但這次他們更大膽,讓大批不同水準的普通玩家參與 AI 表現評估,最終的比賽結果會寫到《星海爭霸 II》AI 科研計畫的論文,投稿到學術期刊。這就是暴雪和 DeepMind 聯手把 AI 送上天梯比賽的最重要原因。

進入《星海爭霸 II》遊戲,在 1v1 比賽設置了允許接入 DeepMind(DeepMind opt-in)之後,參加 1v1 天梯比賽的玩家就可能會遇到 AlphaStar。為了控制所有比賽變項都盡量接近正常的人類 1v1 天梯比賽,以及減小不同比賽間的差異,AlphaStar 會隨機配到一部分玩家的天梯比賽,且 AI 會保持匿名,配到的玩家和《星海爭霸 II》後台都無法知道哪些比賽有 AlphaStar 參與。不過,設置允許接入 AI 後,相信玩家立即就會開始對配到 AI 產生期待,而且比賽開始之後,也可能很快就會發現對手有些不尋常之處。

▲ 1 月的比賽中,AlphaStar 會建造大量工人,快速建立資源優勢(超過人類職業選手的 16 個或 18 個上限)。

▲ 1 月的比賽中,AlphaStar 控制的兩個追獵者黑血極限逃生。

今年 1 月時 AlphaStar 就曾與人類職業選手比賽並取得全勝。相比當時的版本,此次更大規模測試的 AlphaStar 版本有些改動,其中一些明顯對人類有利:

  • 1 月版 AlphaStar 可直接讀取地圖所有可見內容,不需操作切換視角,這次需要自己控制視角,和人類一樣只能觀察到視野內的單位,也只能在視野內移動單位。
  • 1 月版僅使用神族,這次 AlphaStar 會使用全部 3 個種族。
  • 1 月版操作方面沒有明確的性能限制,這次,與人類職業選手共同商議後,對 AlphaStar 的平均每秒操作數、平均每分鐘操作數(APM)、瞬時最高 APM 等方面都更嚴格限制,減少操作方面的優勢。

參與測試的 AlphaStar 都從人類比賽 replay 和自我比賽學習,沒有從與人類的對局學習,同時 AlphaStar 的表現會在整個測試期間保持不變,不進行訓練學習;這樣得到的測試結果能直接反映 DeepMind 目前的技術水準到達怎樣程度。另一方面,既是 AlphaStar 技術方案的一大亮點,參與測試的 AlphaStar 也會是 AlphaStar 種群(AlphaStar league,詳見下文)的多個不同個體,配到的不同 AlphaStar 個體可能會有迥異的遊戲表現。

AlphaStar 技術特點

這裡把 AlphaStar 的技術特點總結如下(詳細可參見文章):

  • 模型結構:AlphaStar 使用的是長序列建模模型,模型從遊戲接口接收的數據是單位列表和這些單位的屬性,經過神經網路計算後輸出至遊戲執行的指令。這個神經網路的基礎是 Transformer 網路,並結合一個深度 LSTM 網路核心、一個帶有指針網路的自動回歸策略頭,以及一個中心化的評分基準。

▲ AlphaStar league 的個體形成明顯的策略分布。(Source:DeepMind

  • 訓練策略:AlphaStar 首先根據高水準人類比賽進行監督學習訓練(模仿學習),然後進行自我對弈。自我對弈過程使用群體強化學習的思路:AlphaStar 自我對弈過程始終都同時記錄、更新多個不同版本的網路,保持一個群體,稱為 AlphaStar league;AlphaStar league 中不同網路有不同的對戰策略、學習目標等,維持群體的多樣性,整個群體的對弈學習保證持續穩定的表現提升,且最新的版本也不會「忘記」如何擊敗最老的版本。
  • 訓練結果輸出:當需要輸出一個網路為最終訓練結果時,以 AlphaStar league 的納許平衡採樣,可得到已發現的多種策略綜合最優解。
  • 算力需求:為了支援大批不同版 AlphaStar 智慧體的對戰與更新,DeepMind 專門構建了一個大規模可拓展的分布式訓練環境,使用最新的 Google TPUv3。AlphaStar league 的自我對戰訓練過程用了 14 天,每個 AlphaStar 智慧體使用 16 個 TPU,最終相當於每個智慧體都有長達 200 年的遊戲時間。訓練結束後的模型在單塊消費級 GPU 就可運行。
  • 操作統計:1 月版中,AlphaStar 的平均 APM 為 280,峰值 APM 超過 1,000,計算延時平均為 350 毫秒;切換關注區域的速度大約每分鐘 30 次。

此次在 AlphaStar 測試的大行動空間下的長序列建模,以及群體強化學習的訓練策略,都是對提升強化學習演算法表現上限、應對複雜環境長期任務的積極技術探索。我們期待早日看到 DeepMind 的論文發表,更期待早日看到基於強化學習的決策系統讓整個領域發展得更成熟。當然了,喜歡《星海爭霸 II》的讀者,可以準備一下,為 DeepMind 這篇論文貢獻一份力量吧!

(本文由 雷鋒網 授權轉載;首圖來源:影片截圖)

延伸閱讀: