升級版 Gemini Robotics 1.5 模型釋出,使機器人思考後再行動

作者 | 發布日期 2025 年 09 月 26 日 7:44 | 分類 AI 人工智慧 , Gemini , Google line share Linkedin share follow us in feedly line share
Loading...
升級版 Gemini Robotics 1.5 模型釋出,使機器人思考後再行動

Gemini Robotics 模型推出,Google DeepMind 將 Gemini 多模態理解能力帶進物理世界取得進展。隨著模型升級,讓機器人「思考」後再行動,可完成多步驟任務。

Google DeepMind 25 日新推出 Gemini Robotics 1.5 模型以及具體化推理模型 Gemini Robotics-ER 1.5,這些都是 3 月中旬發表模型的更新版。現在機器人不只能完成單一動作(例如摺紙或拉開拉鍊),甚至做到依深淺色分開洗衣,根據倫敦當地天氣打包行李,或針對特定地區的需求搜尋網路,協助人們分類垃圾等等。

「目前為止,這些模型在執行單一指令方面表現很好且相當通用。透過版本更新,我們正從一條指令的處理,邁向真正對實體任務的理解、提供解決問題的能力」,Google DeepMind 機器人部門負責人 Carolina Parada 表示。

為了達到這點,機器人使用 Gemini Robotics-ER 1.5 建立對周遭環境的理解,並使用像 Google 搜尋這樣的數位工具查詢更多資訊。Gemini Robotics-ER 1.5 再把這些發現轉變成自然語言指令餵給 Gemini Robotics 1.5,使機器人運用模型的視覺與語言理解能有所提升。

此外,Google DeepMind 宣布 Gemini Robotics 1.5 可幫助不同配置的機器人彼此學習。Google DeepMind 發現,交給由 2 隻機械手臂組成 ALOHA2 機器人的任務,在雙臂機器人 Franka 和 Apptronik 人形機器人 Apollo 也能順利完成。

「這為我們帶來了兩件事:一是能用單一模型控制不同的機器人,包括人形機器人。二是從某一機器人學到的技能,現在可以轉移到另一個機器人上」,Carolina Parada 強調。

▲ 使用 Gemini Robotics 1.5 模型的代理能力。

現在 Google DeepMind 透過 Google AI Studio 的 Gemini API 向開發者提供 Gemini Robotics-ER 1.5,而 Gemini Robotics 1.5 僅提供特定合作夥伴存取。

(首圖來源:Google DeepMind

延伸閱讀:

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》