
Gemini 可說貫穿 Google I/O 2024 整場主題演講,Google 也更新 Gemini 系列幾款模型。
Gemini 1.5 Flash
首先,Gemini 1.5 Flash 是 Gemini 系列模型新成員,特別針對大規模、高頻率的運算任務進行最佳化,可降低成本,並提供大幅擴展的脈絡長度,更是 API 速度最快的一款。
Gemini 1.5 Flash 雖然比 Gemini 1.5 Pro 輕量,但是處理龐大資訊量具備強大的多模態推理能力。Gemini 1.5 Flash 擅長摘要、聊天應用、提供圖說和影片字幕、從長篇文件和表格擷取資料等工作。由於 Gemini 1.5 Flash 透過提取(distillation)過程由 Gemini 1.5 Pro 訓練而成,是將較大模型中最核心知識和技能,轉移到較小、較高效的模型。
Gemini 1.5 Pro
Google 大幅改善 Gemini 1.5 Pro,不僅將脈絡長度擴展至 2M token,並透過資料和演算法強化,提升 Gemini 1.5 Pro 編寫程式碼、邏輯推理和規劃、多輪對話及理解音訊和圖像的能力。此外,Gemini 1.5 Pro 現在能夠理解越來越複雜和具有細微差異的指令。Google 將向 Gemini Advanced 訂閱用戶推出 Gemini 1.5 Pro,支援超過 35 種語言。
Google 也在 Gemini API 和 Google AI Studio 加入理解音訊的功能,因此 Gemini 1.5 Pro 可對上傳至 Google AI Studio 的影片進行跨音訊和圖像的推理。
Gemma 2
稱為「開放模型」的 Gemma,採用 Gemini 系列模型相同技術。自 2 月以來,Gemma 2B(20 億參數)和 Gemma 7B(70 億參數)下載量已達數百萬次,到 4 月為開發者和研究人員提供變體如 CodeGemma 和 RecurrentGemma。
Google 藉這次開發者大會預告 Gemma 2,有 270 億參數和全新架構,可有突破性的性能和效率。
Gemma 系列持續擴展,包括第一個依 PaLI-3 建構的視覺語言模型 PaliGemma 即將推出。Google 也用 LLM 比較器升級負責任生成式 AI 工具包(Responsible Generative AI Toolkit),可評估模型回覆品質。
(首圖來源:Google Blog)