繼《Dota 2》和《星海爭霸》後，人類又一款競技遊戲敗給 AI

很多競技射擊遊戲中，都能看到名為「奪旗」玩法。這源於西方傳統運動，玩家分成兩支隊伍，目標是把對方基地的旗幟帶回自己基地，同時要保護自己旗子不被搶走。

規則看似簡單，可比起強調擊殺得分的玩法，奪旗對團隊配合和戰術執行會要求更高，這往往需要幾名玩家在進攻和防守間取得平衡點。

但這依舊沒有難倒開發 AlphaGo 的 DeepMind 實驗室。據 Arstechnica 報導，5 月 30 日《Science》期刊有一篇新論文，稱新設計的 AI 程式已能在《雷神之錘 III 競技場》展現和人類一樣的行動模式，還能在奪旗遊戲戰勝人類隊伍。

這也是繼《星海爭霸 II》和《Dota 2》後，DeepMind 又攻破的複雜競技遊戲。

《AlphaGo》影片中，DeepMind 創始人 Demis Hassabis 曾簡單說明讓 AI 理解圍棋玩法的難點。

他說，相比西洋棋，圍棋每顆棋子都有更多可走的路徑，最終整個棋局變化數目，比全宇宙的原子總數還多。

DeepMind 實驗室的挑戰，就在於發明效仿人類直覺的進階演算法，最終讓它們像人類一樣決策，展開行動。

換成第一人稱射擊遊戲的奪旗，AI 需要有更快的即時決策能力，比如思考什麼時間點做什麼事才正確？如果兩隊的比數差較大，又該如何協調隊友，採取什麼策略才能扳回分數？

為了解決這個問題，DeepMind 實驗室建立一套新的雙層學習系統。

在內層，DeepMind 會讓 AI 專注競技比賽的核心目標，也就是贏得勝利，基於這點，AI 會再為整個遊戲建立數個次級目標，尋求取勝的最短路徑，比如跟隨隊友，或在敵人基地附近遊走。

這有一些具象化的東西，比如訓練過程中，DeepMind 團隊採取「優勝劣汰」，讓 AI 淘汰每一輪模擬賽表現最差的方案，然後再把最優秀方案的突出部分取出來，反覆改進決策樹。

外層部分，根據內層的決策情況來調整其他模組。比如說當內層認為防守戰術是現在最好的選擇，外層就會提升 AI 對四周環境的視覺感知能力，這樣當敵人靠近基地時，AI 便能更快射殺。

這麼看下來，DeepMind 開發的這套 AI 還是和人類很相似，內層就像人類「大腦」，主要負責戰術策略；外層可當作人類的「眼睛和雙手」，負責執行。

確定模型後，接下來就是一遍又一遍訓練了。這次 DeepMind 團隊投入約 3 週時間，讓 AI 進行 45 萬局遊戲，相當於人類玩家花 4 年積累的時數，效率驚人。

進行到約 10 萬場訓練時，AI 隊伍已達普通人類玩家的水準；20 萬局訓練後，AI 隊伍已能擊敗職業玩家，且優勢逐漸擴大。

另外，研究人員還在訓練期間發現一些其他驚喜。比如 AI 會從神經網路分出一部分神經元，專門用於確認隊友是否拿到旗子。

團隊還使用隨機生成的地圖場景，為的就是不讓 AI 靠地圖取勝。

AI 遊戲玩贏人類，靠的是什麼？DeepMind 曾表示，這是基於強化學習演算法下的戰術執行。

但也有不少人認為，AI 在競技遊戲的真正優勢是超高手速和操作效率，且很多是人類玩家無法做到的。

原因很簡單，我們玩電腦遊戲時需要用到滑鼠、鍵盤和搖桿，人類每次操作，都得先讓大腦意識回饋到手指，然後再傳到遊戲。

但人類選手面對的 AI 並不是機器人，它們沒有實體，所以下達指令時並不需要借助搖桿等工具，這等於砍掉了中間流程，自然能獲得雙倍效率。

（Source：The Verge）

這在實際遊戲也可體現。今年初《星海爭霸》AI 對抗賽，職業選手每分鐘平均運算元為 250~500 左右，而 AI 可飆到 1,000+，且大部分都是有效操作，意味著 AI 可在極短時間下達更多複雜指令。

本次《雷神之錘 III 競技場》比賽，據統計，人類的反應時間只有 AI 一半，且後者射擊精準度可達 80%，人類只有 50%。

之後，哪怕 DeepMind 稱已將 AI 的回應時間調整至與人類相似，人類戰隊依舊只能保證約 30% 勝率，證明在戰術執行和決策部分，AI 依舊擁有優勢。

這其實也沒辦法，單從訓練量來說，DeepMind 的 AI 兩週內玩的局數，積累了大約 200 年的遊戲時間。

難怪有人評價，這種比賽毫無意義，因為 AI 本身就是外掛般的存在。

但人類也並非毫無優勢，比如射擊遊戲的遠距離狙擊場景，職業玩家會展現出更好的視覺能力。

所幸，我們暫時不用擔心碰到這麼強的 AI 對手。畢竟，如果 AI 太聰明，看破你一切招數，玩家會心生明顯的受挫感，玩遊戲變成自虐，就不用指望賣出去了。

此外，比起遊戲，現實世界還有很多值得 AI 投入的領域，《紐約時報》就評論，這些 AI 技能可運用在倉儲管理機器人，還有自動駕駛系統等。

在 DeepMind 眼中，電子遊戲僅是敲門磚，AI 真正需要掌握的是獨立理解世界的能力，以及達成目標的手段，就算換成現實世界，也可以幫助人類。

（本文由愛范兒授權轉載；首圖來源：DeepMind）

從這裡可透過《Google 新聞》追蹤 TechNews

科技新知，時時更新

想請我們喝幾杯咖啡？