香蕉暗號揭曉!Gemini 精準圖像生成功能挑戰 ChatGPT

作者 | 發布日期 2025 年 08 月 27 日 12:19 | 分類 AI 人工智慧 , Gemini , Google line share Linkedin share follow us in feedly line share
Loading...
香蕉暗號揭曉!Gemini 精準圖像生成功能挑戰 ChatGPT

這段時間 Google 高層頻頻預告香蕉暗號「Nano Banana」,26 日終於揭曉答案,由 Google DeepMind 推出最先進的圖像生成和編輯模型「Gemini 2.5 Flash Image」,並導入 Gemini 應用程式提供用戶「免費使用」。

Gemini 2.5 Flash Image 能夠根據用戶的文字提示,對圖像進行更精準的編輯,同時保持角色或物件外觀一致,這是大多數圖像生成工具難以做到的地方。舉例來說,若向 ChatGPT、Grok 請求更改照片中某人襯衫的顏色,結果往往會出現臉部扭曲或背景變得不自然,但是 Gemini 可望解決這個痛點。

Google 舉例,透過 Gemini 2.5 Flash Image 來模糊圖像背景、去除襯衫上的污漬、將整個人物從照片中移除、更改拍攝主體的姿勢、為黑白照片上色等。

Gemini 2.5 Flash Image 還具備更進階的「世界知識」,能從單一文字提示結合多個參考,例如將沙發圖、客廳照片及配色設計整合成一個和諧的生成圖像。

雖然新功能讓用戶更輕鬆建立並編輯圖像,但 Google 仍設下限制用戶濫用的安全機制。面對 Deepfake 造假議題,AI 圖像往往讓用戶難以分辨內容真偽,Google 會在 AI 生成圖像加入浮水印,並在 metadata 加上標記。

▲ Gemini 圖像生成功能大進化。

除導入 Gemini 應用程式外,Gemini 2.5 Flash Image 透過 Gemini API 及 Google AI Studio、Vertex AI 平台提供給開發者。收費為每百萬個輸出詞元(token)收費 30 美元,每張圖片約含 1,290 輸出詞元(相當於每張圖 0.039 美元),輸入和其他輸出模式則照 Gemini 2.5 Flash 既有定價。

Gemini 強化功能、推升用戶

圖像生成模型成為大型科技公司的重要戰場,ChatGPT 今年 3 月底加入 4o 圖像生成(4o Image Generation)功能,用戶嘗試吉卜力動畫風格的圖像引爆熱潮,為此 OpenAI 執行長奧特曼(Sam Altman)稱「我們的 GPU 快要燒壞了」,ChatGPT 用戶和用量明顯暴增。

現在 Gemini 應用程式藉 Gemini 2.5 Flash Image 獲得重大升級,可望迎頭趕上 ChatGPT 受歡迎的圖像生成功能,吸引用戶前來嘗試,甚至幫助 Google 縮小與 OpenAI 之間的用戶差距。ChatGPT 目前每週活躍用戶超過 7 億,而從 7 月 Google 財報電話會議所述,執行長皮查伊(Sundar Pichai)提及 Gemini 每月活躍用戶 4.5 億,每週活躍用戶恐怕更低。

此外,Meta 上週宣布與 Midjourney 建立合作夥伴關係,獲得 Midjourney 美學技術的授權,用於 Meta 未來的模型和產品。由矽谷創投 Andreessen Horowitz(a16z)支持的德國新創 Black Forest Labs 及其 FLUX 模型,仍在多項基準測試領先。

(首圖來源:Google Blog

延伸閱讀:

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》