升級版 Gemini Robotics 1.5 模型釋出，使機器人思考後再行動

Gemini Robotics 模型推出，Google DeepMind 將 Gemini 多模態理解能力帶進物理世界取得進展。隨著模型升級，讓機器人「思考」後再行動，可完成多步驟任務。

Google DeepMind 25 日新推出 Gemini Robotics 1.5 模型以及具體化推理模型 Gemini Robotics-ER 1.5，這些都是 3 月中旬發表模型的更新版。現在機器人不只能完成單一動作（例如摺紙或拉開拉鍊），甚至做到依深淺色分開洗衣，根據倫敦當地天氣打包行李，或針對特定地區的需求搜尋網路，協助人們分類垃圾等等。

「目前為止，這些模型在執行單一指令方面表現很好且相當通用。透過版本更新，我們正從一條指令的處理，邁向真正對實體任務的理解、提供解決問題的能力」，Google DeepMind 機器人部門負責人 Carolina Parada 表示。

為了達到這點，機器人使用 Gemini Robotics-ER 1.5 建立對周遭環境的理解，並使用像 Google 搜尋這樣的數位工具查詢更多資訊。Gemini Robotics-ER 1.5 再把這些發現轉變成自然語言指令餵給 Gemini Robotics 1.5，使機器人運用模型的視覺與語言理解能有所提升。

此外，Google DeepMind 宣布 Gemini Robotics 1.5 可幫助不同配置的機器人彼此學習。Google DeepMind 發現，交給由 2 隻機械手臂組成 ALOHA2 機器人的任務，在雙臂機器人 Franka 和 Apptronik 人形機器人 Apollo 也能順利完成。

「這為我們帶來了兩件事：一是能用單一模型控制不同的機器人，包括人形機器人。二是從某一機器人學到的技能，現在可以轉移到另一個機器人上」，Carolina Parada 強調。