《星海爭霸 II》玩家，很快就可在天梯上為 DeepMind 的論文付出貢獻了

7 月 10 日晚上，暴雪聯合 DeepMind 發表新聞，DeepMind 開發的《星海爭霸 II》AI「AlphaStar」很快就會出現《星海爭霸 II》歐洲伺服器的 1v1 天梯比賽。人類玩家不僅有機會與 AI 配對、和它們展開標準比賽，比賽結果也會像正常比賽影響自己的天梯分數。

在《星海爭霸 II》做科研實驗

正如人盡皆知的圍棋 AI AlphaGo，DeepMind 喜歡的強化學習 AI 研究過程，是在某項比賽（博弈）環境進行技術探索，在新技術的輔助下讓智慧體從歷史數據學習、從自我博弈學習，然後與人類高手比賽，評估 AI 的水準。樊麾、李世乭、柯潔都光榮成為「人工智慧測試高級工程師」。

此次《星海爭霸 II》AI「AlphaStar」的研究過程，DeepMind 繼續沿用這個思路，但這次他們更大膽，讓大批不同水準的普通玩家參與 AI 表現評估，最終的比賽結果會寫到《星海爭霸 II》AI 科研計畫的論文，投稿到學術期刊。這就是暴雪和 DeepMind 聯手把 AI 送上天梯比賽的最重要原因。

進入《星海爭霸 II》遊戲，在 1v1 比賽設置了允許接入 DeepMind（DeepMind opt-in）之後，參加 1v1 天梯比賽的玩家就可能會遇到 AlphaStar。為了控制所有比賽變項都盡量接近正常的人類 1v1 天梯比賽，以及減小不同比賽間的差異，AlphaStar 會隨機配到一部分玩家的天梯比賽，且 AI 會保持匿名，配到的玩家和《星海爭霸 II》後台都無法知道哪些比賽有 AlphaStar 參與。不過，設置允許接入 AI 後，相信玩家立即就會開始對配到 AI 產生期待，而且比賽開始之後，也可能很快就會發現對手有些不尋常之處。

▲ 1 月的比賽中，AlphaStar 會建造大量工人，快速建立資源優勢（超過人類職業選手的 16 個或 18 個上限）。

▲ 1 月的比賽中，AlphaStar 控制的兩個追獵者黑血極限逃生。

今年 1 月時 AlphaStar 就曾與人類職業選手比賽並取得全勝。相比當時的版本，此次更大規模測試的 AlphaStar 版本有些改動，其中一些明顯對人類有利：

1 月版 AlphaStar 可直接讀取地圖所有可見內容，不需操作切換視角，這次需要自己控制視角，和人類一樣只能觀察到視野內的單位，也只能在視野內移動單位。
1 月版僅使用神族，這次 AlphaStar 會使用全部 3 個種族。
1 月版操作方面沒有明確的性能限制，這次，與人類職業選手共同商議後，對 AlphaStar 的平均每秒操作數、平均每分鐘操作數（APM）、瞬時最高 APM 等方面都更嚴格限制，減少操作方面的優勢。

參與測試的 AlphaStar 都從人類比賽 replay 和自我比賽學習，沒有從與人類的對局學習，同時 AlphaStar 的表現會在整個測試期間保持不變，不進行訓練學習；這樣得到的測試結果能直接反映 DeepMind 目前的技術水準到達怎樣程度。另一方面，既是 AlphaStar 技術方案的一大亮點，參與測試的 AlphaStar 也會是 AlphaStar 種群（AlphaStar league，詳見下文）的多個不同個體，配到的不同 AlphaStar 個體可能會有迥異的遊戲表現。

AlphaStar 技術特點

這裡把 AlphaStar 的技術特點總結如下（詳細可參見文章）：

模型結構：AlphaStar 使用的是長序列建模模型，模型從遊戲接口接收的數據是單位列表和這些單位的屬性，經過神經網路計算後輸出至遊戲執行的指令。這個神經網路的基礎是 Transformer 網路，並結合一個深度 LSTM 網路核心、一個帶有指針網路的自動回歸策略頭，以及一個中心化的評分基準。

▲ AlphaStar league 的個體形成明顯的策略分布。（Source：DeepMind）

訓練策略：AlphaStar 首先根據高水準人類比賽進行監督學習訓練（模仿學習），然後進行自我對弈。自我對弈過程使用群體強化學習的思路：AlphaStar 自我對弈過程始終都同時記錄、更新多個不同版本的網路，保持一個群體，稱為 AlphaStar league；AlphaStar league 中不同網路有不同的對戰策略、學習目標等，維持群體的多樣性，整個群體的對弈學習保證持續穩定的表現提升，且最新的版本也不會「忘記」如何擊敗最老的版本。
訓練結果輸出：當需要輸出一個網路為最終訓練結果時，以 AlphaStar league 的納許平衡採樣，可得到已發現的多種策略綜合最優解。
算力需求：為了支援大批不同版 AlphaStar 智慧體的對戰與更新，DeepMind 專門構建了一個大規模可拓展的分布式訓練環境，使用最新的 Google TPUv3。AlphaStar league 的自我對戰訓練過程用了 14 天，每個 AlphaStar 智慧體使用 16 個 TPU，最終相當於每個智慧體都有長達 200 年的遊戲時間。訓練結束後的模型在單塊消費級 GPU 就可運行。
操作統計：1 月版中，AlphaStar 的平均 APM 為 280，峰值 APM 超過 1,000，計算延時平均為 350 毫秒；切換關注區域的速度大約每分鐘 30 次。

此次在 AlphaStar 測試的大行動空間下的長序列建模，以及群體強化學習的訓練策略，都是對提升強化學習演算法表現上限、應對複雜環境長期任務的積極技術探索。我們期待早日看到 DeepMind 的論文發表，更期待早日看到基於強化學習的決策系統讓整個領域發展得更成熟。當然了，喜歡《星海爭霸 II》的讀者，可以準備一下，為 DeepMind 這篇論文貢獻一份力量吧！

（本文由雷鋒網授權轉載；首圖來源：影片截圖）