在開發者社群的支持下,開放模型 Gemma 4 系列下載量突破 1.5 億次。Google DeepMind 3 日進一步發表最新版本 Gemma 4 12B,能將代理式多模態能力帶到一般筆電上。
Gemma 4 12B 能夠原生處理文字、影像及音訊,無需額外的編碼器,因此可降低處理時間、記憶體用量及延遲。
Google 指出,Gemma 4 12B 只需要 16GB VRM 或統一記憶體就能在本機端運行,而在各項基準測試的表現幾乎與 260 億參數規模、約兩倍大小的 Gemma 4 26B 相當。此外,Gemma 4 12B 也是首款支援原生音訊處理的 Gemma 模型。
Gemma 4 12B 能夠執行語音辨識、程式碼生成以及影片分析等任務,根據開發者指南所述,這款模型可以透過同時分析影格和音訊的方式,解析長達數分鐘的影片內容。
Gemma 4 12B 介於適用在邊緣裝置的 Gemma 4 E4B 和更先進的 Gemma 4 26B MoE 之間,將強大的能力打包進更精簡的記憶體占用空間中,並且具備原生音訊輸入功能,將以 Apache 2.0 授權釋出,以獲得開發者生態系的支持。
(首圖來源:Google Blog)






