Google 透過經典遊戲 Pong 訓練人工智慧選擇

遊戲向來都是開發者喜歡用來進行深度強化學習、訓練人工智慧的工具，從棋類到複雜的戰略遊戲都有。不過 Google 最近採用的學習方式，卻是使用經典的乒乓遊戲 Pong 來訓練人工智慧。

Google 最近公開的論文《Atari 模式為本強化學習》（Model-Based Reinforcement Learning for Atari），就提到稱為 SimPLe 的模擬策略學習演算法，使用遊戲模式來學習選擇行為的策略。科學家表示，總括而言 SimPLe 是要代替學習遊戲行為的世界模型，以及使用該模型在模擬遊戲環境改善策略（無模型強化學習）。演算法背後的基本原理已確立好，並應用在最近不少基於模型的強化學習方法。

Google 使用 Pong 和 Freeway 兩個簡單的遊戲，在 2 小時遊戲時間的實驗中，採用 SimPLe 策略的代理成功達到最高分，雖然最終表現仍未達到標準的強化學習方式，但訓練效率可提升 1 倍，未來也能進一步提升準確度，以節省人工智慧的訓練所需時間，以及模擬互動的成本。