
倫敦南方的 DeepMind 實驗室內,兩隻由人工智慧驅動的機器手臂,從 2022 年至今持續展開一場沒有終點的「乒乓球延長賽」。與一般的競技不同,這場對戰不追求勝負,而透過不斷的交鋒與回合對打,讓手臂從每次擊球中學習新策略。研究團隊表示,這種「邊打邊學」的模式,正是推進機器人適應真實世界複雜環境的重要關鍵。
這對機器手臂由 Google DeepMind 開發,被視為未來人形機器人的核心。最初,機器手臂只是簡單的來回擊球,工程師接著逐步提高難度,增加競爭機制,讓機器手臂開始追求得分,發展出各種取分策略,卻也暴露出「邊學邊忘」的困境,經常在適應新策略時遺忘舊戰術,導致回合快速結束。
為了改善這個問題,工程師請來真人陪練,在對抗變化多端的人類時,機器人才顯得更穩定,也制定了多樣策略,最終統計,機器手臂與人類進行了 29 場比賽,勝率為 45%,對中階玩家更達到 55% 的勝率,可說是遇強更強。
為了加速突破瓶頸,DeepMind 團隊進一步引入 Google Gemini 視覺語言模型做為機器手臂的「AI 教練」。Gemini 分析乒乓對戰影片,給出「朝右邊擊球」或「加強網前短球」等自然語言反饋,彷彿教練在場邊指導一般,讓機器手臂能更快速且有效地調整擊球策略。
研究團隊指出,選擇乒乓球做為訓練平台也並非偶然。這項運動具備高速反應、精準動作控制與多樣化策略等特點,且成本低廉,非常適合用來培養通用型機器人的各種能力。
希望透過持續學習與實戰經驗累積,逐步縮短機器人從實驗室走向實際應用的距離,打造出能真正融入家庭、工廠及各種日常環境的智慧型夥伴。
(首圖來源:影片截圖)