微軟推出語音辨識、語音生成與圖像生成 MAI 模型

微軟推出語音辨識、語音生成與圖像生成三款模型，分別為 MAI-Transcribe-1、MAI-Voice-1 與 MAI-Image-2，效能號稱優於 OpenAI 與 Google 等同業產品。

微軟宣布推出新一代 MAI 模型組合，並已正式上線 Microsoft Foundry，主打高效能與價格優勢，進一步擴展生成式 AI 應用版圖。

在語音辨識方面，MAI-Transcribe-1 支援全球 25 種常用語言，並在 FLEURS 基準測試中達到先進水準。微軟表示，該模型針對真實環境中的雜訊與語音干擾進行優化，批次轉錄速度達既有 Azure Fast 方案的 2.5 倍，同時維持低詞錯率（WER），在準確度與效率之間取得平衡。

（Source：微軟，同下）

語音生成方面，MAI-Voice-1 強調自然語音與情緒表達能力，可在長段內容中維持聲音一致性。微軟同時推出自訂語音功能，開發者僅需數秒音訊，即可建立專屬語音模型。效能方面，該模型可在 1 秒內生成約 60 秒語音內容，並透過高效率 GPU 使用降低運算成本。

影像生成方面，MAI-Image-2 則進一步提升生成速度與品質。微軟指出，該模型在實際應用中可達至少 2 倍生成速度提升，並曾於 Arena.ai 排行中名列前段。模型針對攝影與設計應用優化，提升自然光影、膚色與細節呈現能力，同時支援圖像內文字生成。

在企業應用上，MAI-Image-2 已獲全球行銷與傳播集團 WPP 採用，用於影像創作與廣告製作。WPP 表示，該模型能更精準回應創意需求，並提升影像製作效率。

至於價格方面，MAI-Transcribe-1 每小時 0.36 美元起，MAI-Voice-1 每百萬字元 22 美元起，MAI-Image-2 則為文字輸入每百萬 tokens 5 美元、影像輸出 33 美元。

微軟表示，MAI 系列模型以「Humanist AI」為設計理念，強調以人類溝通方式為核心進行優化，並著重實務應用場景。同時，模型皆已完成安全測試與紅隊驗證，並透過 Foundry 提供企業級治理與控管機制，支援大規模部署。

（首圖來源：Unsplash）

從這裡可透過《Google 新聞》追蹤 TechNews

科技新知，時時更新

想請我們喝幾杯咖啡？