
Gemini Robotics 模型推出,Google DeepMind 將 Gemini 多模態理解能力帶進物理世界取得進展。隨著模型升級,讓機器人「思考」後再行動,可完成多步驟任務。
Google DeepMind 25 日新推出 Gemini Robotics 1.5 模型以及具體化推理模型 Gemini Robotics-ER 1.5,這些都是 3 月中旬發表模型的更新版。現在機器人不只能完成單一動作(例如摺紙或拉開拉鍊),甚至做到依深淺色分開洗衣,根據倫敦當地天氣打包行李,或針對特定地區的需求搜尋網路,協助人們分類垃圾等等。
「目前為止,這些模型在執行單一指令方面表現很好且相當通用。透過版本更新,我們正從一條指令的處理,邁向真正對實體任務的理解、提供解決問題的能力」,Google DeepMind 機器人部門負責人 Carolina Parada 表示。
為了達到這點,機器人使用 Gemini Robotics-ER 1.5 建立對周遭環境的理解,並使用像 Google 搜尋這樣的數位工具查詢更多資訊。Gemini Robotics-ER 1.5 再把這些發現轉變成自然語言指令餵給 Gemini Robotics 1.5,使機器人運用模型的視覺與語言理解能有所提升。
此外,Google DeepMind 宣布 Gemini Robotics 1.5 可幫助不同配置的機器人彼此學習。Google DeepMind 發現,交給由 2 隻機械手臂組成 ALOHA2 機器人的任務,在雙臂機器人 Franka 和 Apptronik 人形機器人 Apollo 也能順利完成。
「這為我們帶來了兩件事:一是能用單一模型控制不同的機器人,包括人形機器人。二是從某一機器人學到的技能,現在可以轉移到另一個機器人上」,Carolina Parada 強調。
▲ 使用 Gemini Robotics 1.5 模型的代理能力。
現在 Google DeepMind 透過 Google AI Studio 的 Gemini API 向開發者提供 Gemini Robotics-ER 1.5,而 Gemini Robotics 1.5 僅提供特定合作夥伴存取。
(首圖來源:Google DeepMind)