AI 能在圍棋輾壓世界冠軍,為什麼玩不好卡牌遊戲?

作者 | 發布日期 2019 年 04 月 06 日 0:00 | 分類 AI 人工智慧 , 科技趣聞 follow us in feedly

從 AlphaGo 戰勝世界圍棋冠軍柯潔,到 Libratus 在賭場大勝多位德州撲克頂尖高手,人工智慧似乎已在棋牌類遊戲領域所向披靡。



不過這不意味人工智慧就能成為新的「賭神」,因為就算 AI 能算出各種可能性,但面對看似更簡單的紙牌類遊戲,反而沒那麼得心應手了,研發出 AlphaGo 的 DeepMind 就把下一個挑戰目標放在一款卡牌遊戲花火(Hanabi)。

(Source:Asmodée Éditions

最近 DeepMind 和 Google Brain 團隊在一篇論文披露這項研究的進展,與之前訓練過的圍棋和撲克等遊戲不同,Hanabi 這款遊戲要求 AI 更深入了解其他玩家的心理,進行更高層次的推理,這也是 AlphaGo 這類 AI 目前面臨的瓶頸。

AI 為什麼玩不好紙牌遊戲,回答這問題有必要先簡單了解一下 Hanabi 這款卡牌遊戲。

Hanabi 是一款 2~5 人的合作類型卡牌遊戲,包含 5 種花色的牌組。只有將不同花色的卡牌按照一定順序​​組合排列才能達成「花火」。

牌局中玩家不能看自己的牌,只能看別人的牌,玩家只能以有限的提示推理,或和其他玩家戰略性合作,才有機會勝出。

從遊戲規則就能看出,這款遊戲對溝通和推理能力的要求比較高,AI 需要讀懂其他玩家提示字面意思外的隱藏訊息,並推斷對手的意圖。

研究人員很快就發現這並不容易。DeepMind 團隊曾用其他博弈遊戲驗證過的大量數據來訓練,讓演算法利用副本進行 200 億次「有效無限」動作,按照玩家每次移動需 30 秒計算,這相當於一個人在遊戲時操作 3 億次或玩了 1.66 億小時。

(Source:DeepMind

這種訓練效果在雙人遊戲十分有效,然而 Hanabi 這種有 4 或 5 人參與的遊戲,AI 表現卻始終比專業玩家差得多。

研究團隊指出,演算法要在不同環境交流需要高效程式碼和適應性。比如不同玩家表述的風格和用語可能都不一樣,即便是最先進的 AI 也無法像人一樣快速適應新玩家,AI 只能遵循複雜但相對固定的規則,比如圍棋。

目前 DeepMind 還沒有好辦法攻破 Hanabi 這款遊戲,他們在 Github 發表一個開源平台,讓人們測試和改善演算法。

▲ 德州撲克專業玩家與 AI 對決。(Source:影片截圖)

前兩年人工智慧 Libratus 在德州撲克大賽戰勝人類,引起很大轟動。這是因為比起圍棋響起等全信息遊戲(雙方牌面都相互知道),撲克的變化更多,往往也無規律可循,甚至要用到虛張聲勢等手段來影響對手。百度前首席科學家的吳恩達曾表示:

撲克曾是 AI 最難攻克的遊戲之一,因為關於遊戲狀態你只能看到部分訊息。撲克並沒有單一的最優下法。相反地,AI 玩家必須讓自己的行動隨機化,這樣它詐騙時才能讓對方無法確定真假。

相比起撲克,Hanabi 這種卡牌遊戲的難度更上一層樓,有更多變量和不確定性,不僅要分辨惑人的假象,還要與其他玩家溝通合作。就像電影《賭博默示錄》,即便是剪刀石頭布,隨著規則變動和參與人數增加,也能變成高智商遊戲。

卡內基美隆大學人工智慧研究員 Noam Brown 曾指出,不限注的德州撲克單挑比賽有 10 的 163 次方種情況,即使地球最強的電腦也無法算出所有可能性。

因此 Libratus 用了 3 套不同策略合作,沒有用人們熟知的神經網路,而是用其他基於心理理論的演算法,隨機化自己的行為,使對手難以看出它是否虛張聲勢。

如果 AI 徹底攻破 Hanabi,將是比 AlphaGo 戰勝柯潔更重要的突破。這意味著 AI 更懂人類,有能力做出更複雜的決策,比如在自動駕駛等場景更能與人類溝通,目前類似的 AI 技術已開始被美國美國器官移植中心用於決定哪位病人能獲得腎臟移植了。

同時也可能讓我們進入強人工智慧時代(Artificial General Intelligence),像《流浪地球》那種能為人類未來理性判斷的人工智慧,真的有可能出現了。

註:強人工智慧各方面都能達到人類水準,包括能以批判性思維和抽象思維思考問題,但目前還沒有人工智慧可做到。

(本文由 愛范兒 授權轉載;首圖來源:shutterstock)