Google 實驗性開放模型 DiffusionGemma,專用 GPU 上文字產生速度提高 4 倍

作者 | 發布日期 2026 年 06 月 11 日 7:14 | 分類 AI 人工智慧 , Gemini , Google line share Linkedin share follow us in feedly line share
Loading...
Google 實驗性開放模型 DiffusionGemma,專用 GPU 上文字產生速度提高 4 倍

Google 發表一款實驗性開放模型 DiffusionGemma,透過擴散(Diffusion)方式而非以逐字(word by word)形式來生成文字。在單一 GPU 以單一使用者模式運行時,速度最高可比傳統語言模型快上 4 倍,並由 NVIDIA 負責處理硬體最佳化作業。

大多數語言模型會接續產生一個又一個 token,並以前一個 token 為基礎來產生新的 token。DiffusionGemma 則採取不同做法,它從 256 個隨機占位 token 所組成的區塊開始,透過多次的迭代加以精煉,直到可讀的文字浮現為止。這個概念源自圖像 AI,以擴散方式將雜訊轉化為清晰的圖像。它建構在 Gemma 4 系列之上,承襲 Google 早期關於 Gemini Diffusion 研究所使用的擴散流程。

DiffusionGemma 共有 260 億參數,但每一步驟僅啟用其中的 38 億參數。這要歸功於混合專家(Mixture of Experts,MoE)架構,這當中有數個專門的子網路並列,僅由其中合適部分依輸入內容來啟動。Google 指出,當其量化至較低精度的版本,DiffusionGemma 能在高階消費級 GPU 以 18GB VRAM 就能運行。

更好的 GPU 使用率,是速度提升的關鍵

DiffusionGemma 速度方面的優勢,主要在於硬體使用率。在自回歸模型中,單一使用者的推理作業往往受到記憶體頻寬的限制,GPU 的運算單元在大部分時間是閒置的,等候來自記憶體的資料,這種情況被稱為 memory-bound。DiffusionGemma 透過平行處理最多 256 個 token 的方式迴避這個問題,使 GPU 真正得以保持忙碌運作的狀態。

NVIDIA 指出,在處理單一請求時,H100 GPU 可達每秒約 1,000 個 token 的速度,DGX Station 最高可達每秒 800 個 token,DGX Spark 則達每秒 150 個 token。Google 聲稱,在 GeForce RTX 5090 可達每秒超過 700 個 token。在本地的單一使用者模式下,DiffusionGemma 在專屬 GPU 上的運行速度比同等的自回歸模型快上 4 倍。

Google 將這個效應與專屬加速器之間的關聯做了連結,像 Apple 晶片這類採用共享記憶體的系統,相較於自回歸模型所拉出的差距可能會較小。

至於在雲端服務、面對大量平行請求的情境下,優勢會被反轉。Google 表示,自回歸模型在這類情境本來就能讓硬體保持忙碌,因此 DiffusionGemma 反而可能會推升成本。

NVIDIA 已為 RTX 5090 與 RTX 4090 進行 DiffusionGemma 的量化處理,並針對 Hopper 和 Blackwell 架構進行最佳化作業,這也包括適用於地端桌上型部署的 DGX Station 和 DGX Spark。DiffusionGemma 可以透過 Gemini Enterprise Agent Platform Model Garden 以及 NVIDIA NIM 取得。

速度的提升伴隨著品質上的代價,卻能開啟全新使用情境

DiffusionGemma 以輸出品質來換取速度提升,Google 仍建議在最重視品質的情境下使用一般 Gemma 4 模型,並將 DiffusionGemma 定位成一款供研究人員和開發者用於實驗地端、快速工作流程的工具。

Google 認為 DiffusionGemma 真正的優勢,存在於那些並非以「由左而右」順序進行的任務。由於 DiffusionGemma 會同時考量整個區塊的內容,因此在生成過程中,每個 token 皆能參考任何其他 token,而在傳統的語言模型只能向前回溯。這也讓它將文字插入既有段落、填補程式碼中的空缺,或處理諸如胺基酸序列和數學圖形這類結構化資料時相當有用。

(首圖來源:Google Blog

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》