
這段時間 Google 高層頻頻預告香蕉暗號「Nano Banana」,26 日終於揭曉答案,由 Google DeepMind 推出最先進的圖像生成和編輯模型「Gemini 2.5 Flash Image」,並導入 Gemini 應用程式提供用戶「免費使用」。
Gemini 2.5 Flash Image 能夠根據用戶的文字提示,對圖像進行更精準的編輯,同時保持角色或物件外觀一致,這是大多數圖像生成工具難以做到的地方。舉例來說,若向 ChatGPT、Grok 請求更改照片中某人襯衫的顏色,結果往往會出現臉部扭曲或背景變得不自然,但是 Gemini 可望解決這個痛點。
Google 舉例,透過 Gemini 2.5 Flash Image 來模糊圖像背景、去除襯衫上的污漬、將整個人物從照片中移除、更改拍攝主體的姿勢、為黑白照片上色等。
Gemini 2.5 Flash Image 還具備更進階的「世界知識」,能從單一文字提示結合多個參考,例如將沙發圖、客廳照片及配色設計整合成一個和諧的生成圖像。
雖然新功能讓用戶更輕鬆建立並編輯圖像,但 Google 仍設下限制用戶濫用的安全機制。面對 Deepfake 造假議題,AI 圖像往往讓用戶難以分辨內容真偽,Google 會在 AI 生成圖像加入浮水印,並在 metadata 加上標記。
Our new native image generation and editing is state-of-the-art, and ranked #1 in the world. And we’re rolling it out for free to everyone today.
You’ve got the tools. Now go bananas. Ideas & inspiration in the 🧵below. pic.twitter.com/mw7XyG5nes
— Google Gemini App (@GeminiApp) August 26, 2025
▲ Gemini 圖像生成功能大進化。
除導入 Gemini 應用程式外,Gemini 2.5 Flash Image 透過 Gemini API 及 Google AI Studio、Vertex AI 平台提供給開發者。收費為每百萬個輸出詞元(token)收費 30 美元,每張圖片約含 1,290 輸出詞元(相當於每張圖 0.039 美元),輸入和其他輸出模式則照 Gemini 2.5 Flash 既有定價。
Gemini 強化功能、推升用戶
圖像生成模型成為大型科技公司的重要戰場,ChatGPT 今年 3 月底加入 4o 圖像生成(4o Image Generation)功能,用戶嘗試吉卜力動畫風格的圖像引爆熱潮,為此 OpenAI 執行長奧特曼(Sam Altman)稱「我們的 GPU 快要燒壞了」,ChatGPT 用戶和用量明顯暴增。
現在 Gemini 應用程式藉 Gemini 2.5 Flash Image 獲得重大升級,可望迎頭趕上 ChatGPT 受歡迎的圖像生成功能,吸引用戶前來嘗試,甚至幫助 Google 縮小與 OpenAI 之間的用戶差距。ChatGPT 目前每週活躍用戶超過 7 億,而從 7 月 Google 財報電話會議所述,執行長皮查伊(Sundar Pichai)提及 Gemini 每月活躍用戶 4.5 億,每週活躍用戶恐怕更低。
此外,Meta 上週宣布與 Midjourney 建立合作夥伴關係,獲得 Midjourney 美學技術的授權,用於 Meta 未來的模型和產品。由矽谷創投 Andreessen Horowitz(a16z)支持的德國新創 Black Forest Labs 及其 FLUX 模型,仍在多項基準測試領先。
(首圖來源:Google Blog)