Gemini 3.1 Flash-Lite 新模型低成本，API 定價僅 Pro 版八分之一

最快且成本效益最高的 Gemini 3 系列新模型——Gemini 3.1 Flash-Lite 來了，是為大規模、高頻率的工作負載所打造。

根據 Artificial Analysis 基準測試，Gemini 3.1 Flash-Lite 在回應首字元所需時間比 Gemini 2.5 Flash 快 2.5 倍，輸出速度提升 45%，同時維持相似或更好的品質。這種低延遲對高頻工作流程相當重要，成為開發者建構即時、回應敏捷體驗的理想模型選項。

在 Arena.ai 排行榜上，Gemini 3.1 Flash-Lite 取得令人印象深刻的 1,432 Elo 分數，並在多項推理與跨模態理解基準測試超越其他同級模型，包括在 GPQA Diamond 得到 86.9%、在 MMMU Pro 得到 76.8%，甚至勝過 Gemini 2.5 Flash 等較大規模的 Gemini 模型。

除原生效能外，Gemini 3.1 Flash-Lite 在 Google AI Studio 與 Vertex AI 配備「思考等級」，讓開發者控制模型在執行任務時要投入多少「思考」程度，對於管理高頻率工作負載非常重要。Gemini 3.1 Flash-Lite 可處理大規模任務（比方說大量翻譯與內容審查），同時也能勝任比較深度推理的複雜工作，例如生成使用者介面與儀表板、建立模擬或遵循複雜指示。

Google AI Studio 與 Vertex AI 早期存取的開發者，以及像 Latitude、Cartwheel、Whering 等公司，已在使用 Gemini 3.1 Flash-Lite 解決大規模複雜問題。參與早期測試的開發者強調 Gemini 3.1 Flash-Lite 效率與推理能力，表示它能以接近更高等級模型的精準度處理複雜輸入，並能遵循指示且維持一致性。

Gemini 3.1 Flash-Lite 收費為每百萬個輸入詞元（token）收費僅 0.25 美元、每百萬個輸出詞元收費僅 1.5 美元，價格是 Gemini 3.1 Pro（輸入 2 美元、輸出 12 美元）的八分之一，能以遠低於大型語言模型的成本提供強化的性能。比較模型等級與價格下，Gemini 3.1 Flash-Lite 可提供高品質表現。

▲ Gemini 3.1 Flash-Lite 擁有成本效益。

Gemini 3.1 Flash-Lite has landed.

It’s our most cost-efficient Gemini 3 series model yet, built for intelligence at scale. Here’s what’s new 🧵 pic.twitter.com/BzD2bdg3Dx

— Google DeepMind (@GoogleDeepMind) March 3, 2026

▲ Gemini 3.1 Flash-Lite 在速度和品質方面優於 Gemini 2.5 Flash。

這次模型發表距離 Gemini 3.1 Pro 在上個月首次亮相僅幾週時間，定位策略分明，使開發者與企業客戶能在不同層級擴展智慧應用。即日起，Gemini 3.1 Flash-Lite 以預覽形式，透過 Gemini API 在 Google AI Studio 向開發者開放，並透過 Vertex AI 平台提供給企業客戶。

（圖片來源：Google Blog）