
為使 AI 在實體世界對人類有所幫助,Google DeepMind 推出 2 款以 Gemini 2.0 為基礎的全新模型──Gemini Robotics、Gemini Robotics-ER,為新一代機器人建立基礎。
Gemini Robotics 是一款視覺-語言-動作(vision-language-action,VLA)模型,即使之前沒有受過相關訓練,Gemini Robotics 能夠理解當下情境、做出反應。
Google DeepMind 機器人部門負責人 Carolina Parada 表示,Gemini Robotics 借鑑 Gemini 對多模態世界的理解,並增加物理動作做為新的輸出方式,用於直接控制機器人。
機器人採用的 AI 模型主要需要三個特質:它必須具通用性,能夠適應不同的情境;它需要互動性,意味著能夠理解並對指令或環境的變化快速回應;它還要有敏捷性,能夠做到人們用手和手指所做的事,像是小心翼翼地操控物體。為此 Gemini Robotics 在這三個特質取得具體進展,不僅能夠處理當下情境,與人和環境的互動表現也很出色,能準確執行特定動作,比方說將紙折疊、打開瓶蓋等。
「雖然過去我們分別在這三個領域的通用機器人技術取得進展,但現在我們用單一模型大幅提升這三方面的表現。這使我們能夠建構更有能力、更敏捷且更能適應環境變化的機器人」,Carolina Parada 表示。
不只如此,Google DeepMind 還推出 Gemini Robotics-ER(embodied reasoning),模型具有先進的空間理解能力,能夠理解複雜且動態的現實世界;Gemini Robotics-ER 更能執行控制機器人所需的所有步驟,例如感知、狀態判斷、空間理解及生成程式碼,比起 Gemini 2.0 能有 2~3 倍的成功率。
舉例來說,當桌上擺滿食物、想要整理時,機器人需要確切知道每個物品的位置,還需要懂得打開餐盒、抓取物品並準確放入餐盒。這是 Gemini Robotics-ER 期望做到的 AI 推理。這款模型專為機器人研發人員設計,可與現有的底層控制器(控制機器人動作的系統)連接,讓他們能夠運用由 Gemini Robotics-ER 驅動的能力。
▲ Google DeepMind 公開 Gemini Robotics 研究成果。
安全性方面,Google DeepMind 正在開發一種分層方法,Gemini Robotics-ER 也被訓練來評估特定情境下某些潛在動作是否安全。Google DeepMind 還推出新的基準測試和框架,以促進 AI 產業中的安全性研究。
值得關注的是,Google DeepMind 正與機器人開發商 Apptronik 合作,運用 Gemini 2.0 打造新一代人形機器人;同時選定值得信賴的測試夥伴一同合作,指導 Gemini Robotics-ER 的未來,包括 Agile Robots、Agility Robotics、Boston Dynamics、Enchanted Tools 等公司。
▲ Gemini Robotics 應用範例。
(首圖來源:影片截圖)