Gemini Robotics 新模型發表，機器人更聰明、動作更精細

為使 AI 在實體世界對人類有所幫助，Google DeepMind 推出 2 款以 Gemini 2.0 為基礎的全新模型──Gemini Robotics、Gemini Robotics-ER，為新一代機器人建立基礎。

Gemini Robotics 是一款視覺-語言-動作（vision-language-action，VLA）模型，即使之前沒有受過相關訓練，Gemini Robotics 能夠理解當下情境、做出反應。

Google DeepMind 機器人部門負責人 Carolina Parada 表示，Gemini Robotics 借鑑 Gemini 對多模態世界的理解，並增加物理動作做為新的輸出方式，用於直接控制機器人。

機器人採用的 AI 模型主要需要三個特質：它必須具通用性，能夠適應不同的情境；它需要互動性，意味著能夠理解並對指令或環境的變化快速回應；它還要有敏捷性，能夠做到人們用手和手指所做的事，像是小心翼翼地操控物體。為此 Gemini Robotics 在這三個特質取得具體進展，不僅能夠處理當下情境，與人和環境的互動表現也很出色，能準確執行特定動作，比方說將紙折疊、打開瓶蓋等。

「雖然過去我們分別在這三個領域的通用機器人技術取得進展，但現在我們用單一模型大幅提升這三方面的表現。這使我們能夠建構更有能力、更敏捷且更能適應環境變化的機器人」，Carolina Parada 表示。

不只如此，Google DeepMind 還推出 Gemini Robotics-ER（embodied reasoning），模型具有先進的空間理解能力，能夠理解複雜且動態的現實世界；Gemini Robotics-ER 更能執行控制機器人所需的所有步驟，例如感知、狀態判斷、空間理解及生成程式碼，比起 Gemini 2.0 能有 2~3 倍的成功率。

舉例來說，當桌上擺滿食物、想要整理時，機器人需要確切知道每個物品的位置，還需要懂得打開餐盒、抓取物品並準確放入餐盒。這是 Gemini Robotics-ER 期望做到的 AI 推理。這款模型專為機器人研發人員設計，可與現有的底層控制器（控制機器人動作的系統）連接，讓他們能夠運用由 Gemini Robotics-ER 驅動的能力。

▲ Google DeepMind 公開 Gemini Robotics 研究成果。

安全性方面，Google DeepMind 正在開發一種分層方法，Gemini Robotics-ER 也被訓練來評估特定情境下某些潛在動作是否安全。Google DeepMind 還推出新的基準測試和框架，以促進 AI 產業中的安全性研究。

值得關注的是，Google DeepMind 正與機器人開發商 Apptronik 合作，運用 Gemini 2.0 打造新一代人形機器人；同時選定值得信賴的測試夥伴一同合作，指導 Gemini Robotics-ER 的未來，包括 Agile Robots、Agility Robotics、Boston Dynamics、Enchanted Tools 等公司。