Gemini Omni 模型登場！輸入素材轉為內容創作，率先支援影片輸出

Google 發表 Gemini Omni，這是一系列結合 Gemini 邏輯推理與創作能力的全新模型，能以任何的輸入素材創造出任意形式的內容，率先從支援影片生成做起。隨著 Google I/O 2026 開發者大會推出 Gemini Omni Flash 版本，並開始導入 Gemini 應用程式、Google Flow 及 YouTube Shorts。

透過 Gemini Omni，你可以自由混搭圖片、影片、音訊及文字素材等內容，結合 Gemini 基於現實世界的知識，進一步生成高品質的 10 秒影片，Google 未來將會逐步支援圖片和音訊等更多元的輸出類型。

Gemini Omni 讓你能夠用自然流暢的語言，輕鬆進行影片編輯，例如針對畫面中的特定物件進行微調，徹底抽換改變整個世界背景，或者反覆微調影片內的細節。每一次指令都會承接上一步的脈絡，不僅能讓影片保持角色外觀的一致性、擁有合理的物理邏輯，場景也會記住前一幕發生的細節。

只要上傳一段拍好的影片，你可以直接要求 Gemini Omni 改變其中情境，像是調整動作、加入新角色或物件，或是把平凡瞬間變成令人意想不到的驚喜情節。

Gemini Omni 不只能夠建構出逼真的場景，還能推理接下來發生什麼事。透過結合物理常識（如重力、動能、流體力學等）和 Gemini 豐富的歷史、科學及文化知識，Gemini Omni 能進一步拉近擬真畫面與深刻敘事之間的距離。

透過簡短的提示詞，Gemini Omni 也能生成生動的解說影片，透過視覺效果幫助你輕鬆了解生硬複雜的概念。

混搭不同素材生成影片

Gemini Omni 能將文字、圖片、影片或音訊等任何參考來源，融合轉化為單一且風格連貫的成品輸出。在音訊輸入上，我們初期會先開放語音檔作為參考素材，並持續加入其他音訊輸入類型。

你可以使用參考素材來定義視覺風格，或是直接用自然對話方式進行描述，Gemini Omni 會融合所有輸入的參考內容，生成風格一致的影片。

你還能透過輸入角色圖片、場景圖或手繪草圖等參考資料，創作出符合心中想像的作品。

所有 Gemini Omni 創作的影片，都會包含無法以肉眼察覺的 SynthID 數位浮水印。可以透過 Gemini 應用程式、Chrome 瀏覽器中的 Gemini、以及 Google 搜尋，驗證影片是否由 Gemini Omni 生成。

值得一提的是，Google 已有一款影片產生模型 Veo，是由文字轉影片的模型，Gemini Omni 能以影片作為基礎幫助生成另一段影片。Google DeepMind 技術長暨首席 AI 架構師 Koray Kavukcuoglu 表示，受惠於 Gemini 的訓練資訊，Gemini Omni Flash 就比 Veo 擁有更多關於世界的知識。

今日開始，Google 正式推出 Gemini Omni Flash。所有 Google AI Plus、Google AI Pro 及 Google AI Ultra 訂閱用戶，都能透過 Gemini 應用程式和 Google Flow 搶先體驗。此外，本週開始用戶也能在 YouTube Shorts 和 YouTube Create 免費體驗這項功能，幾週內將透過 API 陸續把這項功能開放給開發者與企業客戶使用。

（首圖來源：影片截圖）