Google 擘劃宏偉願景：Gemini 打造「世界模型」和通用 AI 助理

Google 持續拓展 Gemini 能力，朝向「世界模型」（World Model）方向前進，這是開發出更新、更實用的通用 AI 助理之關鍵，也就是說，這將成為一款能夠理解使用者所處情境，根據個人要求、透過任何裝置，替人們採取行動的智慧 AI 助理。

經過上週 Google I/O 2025 開發者大會，可觀察到 Google 以驚人速度匯聚強大 AI 能力，涵蓋多種底層模型架構和應用產品。Google 揮舞著 Gemini 大旗，推出一系列創新技術，迅速整合至各項產品中。

除吸睛功能外，Google 更擘畫遠大的願景：使「世界模型」成為 AI 時代的專屬作業系統。這不是指傳統的磁碟啟動系統，而是可供所有應用程式都能利用 AI。「世界模型」驅動的通用 AI 助理，能夠理解人們身處的世界，代替人們進行推理、採取行動。

Google DeepMind 執行長哈薩比斯（Demis Hassabis）在首日主題演講清楚闡述 Google 宏偉願景，繼續加倍努力投入開發 AGI（Artificial General Intelligence，通用人工智慧）。他稱 Gemini 雖然已經是最好的多模態模型，Google 努力將其延伸成「世界模型」，能像大腦一樣，理解並模擬世界的各個面貌來制定計畫，並構思全新體驗。

Google DeepMind 在 Genie 2 等模型上的研究成果，揭示「世界模型」發展方向。其實從 2024 年底以來，哈薩比斯在多場公開活動持續闡述「世界模型」及其建構通用 AI 助理的願景，也是 Google 邁向 AGI 之路的關鍵。

這樣的願景在 Google I/O 2025 有了具體呈現，例如發表名為「Flow」的影像創作新工具，背後由 Veo 3 模型驅動而成；Project Astra 能夠探索未來通用 AI 助理的能力，讓它理解人們周遭的世界，現在 Project Astra 已與 Gemini Live 整合。

Google I/O 2025 揭曉的開發者工具則是搭建「世界模型」的基石，包括具備 Deep Think 功能的 Gemini 2.5 Pro、高效的 Gemini 2.5 Flash 等模型。Google 也讓 Gemini Diffusion 亮相，意味著 Google 願意突破傳統，取得更高效率、更低延遲。

值得關注的是，微軟在企業軟體領域擁有穩固地位，但若 Google 能夠提供真正的通用 AI 助理並由「世界模型」驅動，有機會一舉超車微軟。

AI 競賽也是一場與時間的賽跑，執行速度攸關成敗。過去幾年 Google 常因行動緩慢、落後競爭對手飽受批評。但以 Gemini 為核心大力推動 AI 下，Google 在多個戰線穩健投入，已經獲得比競爭對手更快的成長。