TranslateGemma 是一套以 Google Gemma 3 模型為基礎建立的全新開放式翻譯模型,提供 40 億(4B)、120 億(12B)、270 億(27B)三種參數規模的版本,幫助人們無論身在何處、使用何種裝置,能夠跨越 55 種語言進行交流。
Google 對 TranslateGemma 進行嚴謹的訓練與評估,涵蓋 55 組語言配對,確保主要語言(如西班牙文、法文、中文、印地文)以及多種低資源語言都能提供穩定且高品質的翻譯表現。
除核心語言外,Google 還訓練將近 500 組額外的語言配對,進一步拓展模型的邊界。TranslateGemma 被設計成可持續調適的穩健基礎,為研究人員微調特定語言配對、或提升低資源語言品質,提供理想起點。
TranslateGemma 還保留 Gemma 3 多模態能力。在 Vistra 圖像翻譯基準測試的結果表明,即使在 TranslateGemma 的訓練過程未進行特定的多模態微調,文字翻譯技術的改進也對翻譯圖像中的文字產生正面影響。
透過 Google 設計的訓練流程,使用 MetricX 在 WMT24++ 基準測試測得的 TranslateGemma 12B 版本性能優於 Gemma 3 27B 模型。換句話說,只需要不到原模型一半的參數量,就能達成高保真翻譯品質。這樣的突破可在不犧牲準確度的前提下,帶來更高的吞吐量與更低的延遲性。同樣地,4B 版本的性能足以媲美更大參數的 12B 版本,使其成為行動端推理的強力選擇。
三種版本的 TranslateGemma 可對應多元部署環境:4B 版本已為行動裝置與邊緣裝置部署最佳化;12B 版本可在筆電上順暢運行,將研究等級的能力帶入地端環境;27B 版本追求最高保真度,能在雲端以單顆 NVIDIA H100 GPU 或 Google TPU 運行。
Google 進一步表示,開發 TranslateGemma 的關鍵,在於專門的兩階段微調流程,將 Gemini 模型的「直覺」提煉成一個開放式架構:一是監督式微調(Supervised Fine-Tuning,SFT),使用多樣化的平行語料對基礎的 Gemma 3 模型進行微調,資料集包含大量人工翻譯內容,以及由最先進的 Gemini 模型生成的高品質合成翻譯,確保廣泛語言覆蓋。二是強化學習(Reinforcement Learning,RL),Google 引進創新的強化學習方法,包含 MetricX-QE 和 AutoMQM 等進階指標,引導模型產生更符合上下文情境、更自然流暢的翻譯。
(首圖來源:Google Blog)






