Google 發表新模型 RT-2，我們離機器人瓦力的世界又近一步

Google 旗下 DeepMind 新發表 RT-2（Robotic Transformer 2），它是一種與眾不同的視覺-語言-行動（vision-language-action，VLA）模型，從網路和機器人的資料進行學習，並將這些知識轉化為控制機器人的通用指令。

RT-2 教導機器人辨識視覺和語言，解釋指令並推斷哪些物件最符合要求。過去訓練機器人需要很長的時間，研究人員必須單獨規劃研究方向，如今藉助 RT-2 等 VLA 模型的強大功能，機器人可在取得大量資料組後，推斷下一步該做什麼。

DeepMind 在一篇論文表示，新模型以網路和機器人資料進行訓練，也利用自家 Bard 等大型語言模型的研究進展，與機器人自身數據相互結合，例如決定需要移動哪個機器手臂關節等，甚至能夠理解英語以外的其他語言指令。

DeepMind 舉例，RT-2 可讓機器人在沒有經過特定訓練的情況下辨識並扔掉垃圾，以 AI 試圖理解垃圾是什麼以及通常如何處理垃圾，來引導行動。

DeepMind 研究人員在像是廚房的測試環境利用機械手臂測試 RT-2，《紐約時報》看完機械手臂的現場測試指出，一名研究人員下達「撿起絕種動物」的指令，機器手臂順利從 3 個小物中撿起 1 隻恐龍。不過，機器手臂也會把汽水口味辨識錯誤，把水果誤認成白色，可見 RT-2 目前應用還不夠完美。

Google 涉足更智慧的機器人應用是從去年開始，當時宣布在機器人上使用 PaLM 模型，建立全新 PaLM-SayCan 機器人，將大型語言模型和機器人技術整合在一起。

RT-2 未來持續發展和測試下，Google 的機器人透過大型語言模型在運作上更聰明，不需要複雜的指令將能完成任務，彷彿讓人們距離皮克斯電影《瓦力》（WALL-E）描述的未來世界更近一步。

（首圖來源：Google DeepMind Blog）