Google 打造世界模型「Genie 3」,生成動態 3D 環境奠定 AGI 基礎

作者 | 發布日期 2025 年 08 月 06 日 7:29 | 分類 AI 人工智慧 , Gemini , Google line share Linkedin share follow us in feedly line share
Loading...
Google 打造世界模型「Genie 3」,生成動態 3D 環境奠定 AGI 基礎

Google DeepMind 發表通用「Genie 3」世界模型(World Model),即時生成前所未有的動態 3D 環境,供使用者與 AI 代理互動。

世界模型是一種 AI 系統,可模擬環境,用於教育、娛樂或訓練機器人、AI 代理等場景,是邁向 AGI(Artificial General Intelligence,通用人工智慧)的關鍵基石。透過世界模型,使用者只需要給出提示文字,模型便會生成一個能夠自由探索的空間,不同於以 3D 素材手工打造,整個世界由 AI 生成。

Google DeepMind 為此投注大量資源,去年 12 月即展示可根據影像建立互動世界的「Genie 2」,並召集一支由前 OpenAI Sora 影像生成團隊共同負責人帶隊的世界模型團隊。但 Genie 2 仍受侷限,比方說 Genie 2 生成的世界只能玩上大約 10~20 秒。現在 Genie 3 看來是一大進步。

根據官方部落格文章談到,Genie 3 是 Google DeepMind 首款允許即時互動的世界模型,以 Genie 2、Veo 3 的技術為基礎,使用者只需要一段提示文字,即可生成「數分鐘」模擬物理特性、可互動的世界,超過 Genie 2 的 10~20 秒。Google DeepMind 表示,Genie 3 可在視覺記憶下保持場景約 1 分鐘,換句話說,若在生成世界移開視線再轉回來,場景細節大多還會存在。這些生成世界都以 720p 畫質、24fps 更新率呈現。

Google DeepMind 也在 Genie 3 加入所謂「可提示的世界事件」,使用者可透過提示文字改變生成世界中的天氣條件、新增物體和角色。

Genie 3 恐怕不是一般人能夠自行體驗的模型。Google DeepMind 指出,Genie 3 處於研究預覽階段,只開放給少數學者和創作者,計劃未來提供給更多測試者。

▲ 全新 Genie 3 世界模型。

(首圖來源:影片截圖)

延伸閱讀:

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》