Facebook 成功打破紙牌遊戲 Hanabi 的 AI 系統得分紀錄

據外媒 Venture Beat 報導，Facebook 人工智慧研究院（Facebook AI Research，FAIR）稱，他們推出了一個與紙牌遊戲 Hanabi 相關的最新 AI 計畫。AI 系統得分是 24.61 分（滿分為 25 分），而之前最好的系統得分是 23.92 分。

今年 2 月，來自 Google、DeepMind、卡內基美隆大學和牛津大學的研究人員提出 Hanabi 基準，並提出更多人工智慧可玩這個遊戲，以實現「人工智慧研究的新挑戰」。參與計畫的研究人員認為，弄清楚怎樣玩好 Hanabi，這對人工智慧來說可能是重大進步，並有助於在聊天和自動駕駛等應用場景與人類更流暢互動。

與國際象棋或圍棋這些 AI 挑戰人類的其他遊戲不同，Hanabi 是合作遊戲，參與者可共同努力，朝著共同目標努力。遊戲最大特點在於，牌面是向著別人，玩家看不見自己的牌，但其他人都看得見。大家的目標是下牌到桌面讓 5 種顏色的牌都從 1 到 5 照順序排出來。

曾經發表相關論文的牛津大學研究員 Jakob Foerster 說，「Hanabi 是關於溝通和合作的遊戲，人工智慧目前還沒有深入這類遊戲領域」。

「其中一件非常令人興奮的事是，我們觀察到的改進，與透過深度強化學習觀察到的改進，是完全正相關：你可以在任何策略上加上這個，效果會更強大。」Facebook AI 研究員 Noam Brown 在電話採訪這樣告訴 VentureBeat。「我們看到的結果遠遠超出我們或其他研究人員的預期。實際上，我們從搜尋獲得的好處，要強於過去所有深度強化學習演算法所獲得的好處。」

據了解，這次 Facebook 的 Hanabi AI 計畫借鑑 Pluribus 一些搜尋技術，Pluribus 是 Facebook 今年稍早推出玩撲克的 AI，擊敗了一些人類冠軍。

報導稱，Facebook 的 AI 團隊透過將搜尋技術與深度強化學習結合起來做到這次壯舉。搜尋演算法把一個代理之外的所有代理執行商定的策略將問題轉換為單個代理設置，這是一種稱為「藍圖」（blueprint）的強化學習演算法。根據一篇題為「透過在合作部分可觀察的遊戲搜尋改進策略」論文，這個演算法允許搜尋代理「將其他代理的已知策略當作環境的一部分處理，並基於其他行為來維護對隱藏訊息的信念。」

（本文由雷鋒網授權轉載；首圖來源：Facebook AI）