香蕉暗號揭曉！Gemini 精準圖像生成功能挑戰 ChatGPT

這段時間 Google 高層頻頻預告香蕉暗號「Nano Banana」，26 日終於揭曉答案，由 Google DeepMind 推出最先進的圖像生成和編輯模型「Gemini 2.5 Flash Image」，並導入 Gemini 應用程式提供用戶「免費使用」。

Gemini 2.5 Flash Image 能夠根據用戶的文字提示，對圖像進行更精準的編輯，同時保持角色或物件外觀一致，這是大多數圖像生成工具難以做到的地方。舉例來說，若向 ChatGPT、Grok 請求更改照片中某人襯衫的顏色，結果往往會出現臉部扭曲或背景變得不自然，但是 Gemini 可望解決這個痛點。

Google 舉例，透過 Gemini 2.5 Flash Image 來模糊圖像背景、去除襯衫上的污漬、將整個人物從照片中移除、更改拍攝主體的姿勢、為黑白照片上色等。

Gemini 2.5 Flash Image 還具備更進階的「世界知識」，能從單一文字提示結合多個參考，例如將沙發圖、客廳照片及配色設計整合成一個和諧的生成圖像。

雖然新功能讓用戶更輕鬆建立並編輯圖像，但 Google 仍設下限制用戶濫用的安全機制。面對 Deepfake 造假議題，AI 圖像往往讓用戶難以分辨內容真偽，Google 會在 AI 生成圖像加入浮水印，並在 metadata 加上標記。

Our new native image generation and editing is state-of-the-art, and ranked #1 in the world. And we’re rolling it out for free to everyone today.

You’ve got the tools. Now go bananas. Ideas & inspiration in the 🧵below. pic.twitter.com/mw7XyG5nes

— Google Gemini App (@GeminiApp) August 26, 2025

▲ Gemini 圖像生成功能大進化。

除導入 Gemini 應用程式外，Gemini 2.5 Flash Image 透過 Gemini API 及 Google AI Studio、Vertex AI 平台提供給開發者。收費為每百萬個輸出詞元（token）收費 30 美元，每張圖片約含 1,290 輸出詞元（相當於每張圖 0.039 美元），輸入和其他輸出模式則照 Gemini 2.5 Flash 既有定價。

Gemini 強化功能、推升用戶

圖像生成模型成為大型科技公司的重要戰場，ChatGPT 今年 3 月底加入 4o 圖像生成（4o Image Generation）功能，用戶嘗試吉卜力動畫風格的圖像引爆熱潮，為此 OpenAI 執行長奧特曼（Sam Altman）稱「我們的 GPU 快要燒壞了」，ChatGPT 用戶和用量明顯暴增。

現在 Gemini 應用程式藉 Gemini 2.5 Flash Image 獲得重大升級，可望迎頭趕上 ChatGPT 受歡迎的圖像生成功能，吸引用戶前來嘗試，甚至幫助 Google 縮小與 OpenAI 之間的用戶差距。ChatGPT 目前每週活躍用戶超過 7 億，而從 7 月 Google 財報電話會議所述，執行長皮查伊（Sundar Pichai）提及 Gemini 每月活躍用戶 4.5 億，每週活躍用戶恐怕更低。

此外，Meta 上週宣布與 Midjourney 建立合作夥伴關係，獲得 Midjourney 美學技術的授權，用於 Meta 未來的模型和產品。由矽谷創投 Andreessen Horowitz（a16z）支持的德國新創 Black Forest Labs 及其 FLUX 模型，仍在多項基準測試領先。

（首圖來源：Google Blog）