Google 打造世界模型「Genie 3」，生成動態 3D 環境奠定 AGI 基礎

Google DeepMind 發表通用「Genie 3」世界模型（World Model），即時生成前所未有的動態 3D 環境，供使用者與 AI 代理互動。

世界模型是一種 AI 系統，可模擬環境，用於教育、娛樂或訓練機器人、AI 代理等場景，是邁向 AGI（Artificial General Intelligence，通用人工智慧）的關鍵基石。透過世界模型，使用者只需要給出提示文字，模型便會生成一個能夠自由探索的空間，不同於以 3D 素材手工打造，整個世界由 AI 生成。

Google DeepMind 為此投注大量資源，去年 12 月即展示可根據影像建立互動世界的「Genie 2」，並召集一支由前 OpenAI Sora 影像生成團隊共同負責人帶隊的世界模型團隊。但 Genie 2 仍受侷限，比方說 Genie 2 生成的世界只能玩上大約 10~20 秒。現在 Genie 3 看來是一大進步。

根據官方部落格文章談到，Genie 3 是 Google DeepMind 首款允許即時互動的世界模型，以 Genie 2、Veo 3 的技術為基礎，使用者只需要一段提示文字，即可生成「數分鐘」模擬物理特性、可互動的世界，超過 Genie 2 的 10~20 秒。Google DeepMind 表示，Genie 3 可在視覺記憶下保持場景約 1 分鐘，換句話說，若在生成世界移開視線再轉回來，場景細節大多還會存在。這些生成世界都以 720p 畫質、24fps 更新率呈現。

Google DeepMind 也在 Genie 3 加入所謂「可提示的世界事件」，使用者可透過提示文字改變生成世界中的天氣條件、新增物體和角色。

Genie 3 恐怕不是一般人能夠自行體驗的模型。Google DeepMind 指出，Genie 3 處於研究預覽階段，只開放給少數學者和創作者，計劃未來提供給更多測試者。