綜合中媒報導,阿里巴巴旗下通義大模型發布新一代端到端語音互動模型「Fun-Audio-Chat」,可提供「像朋友一樣的對話體驗」,能感知到用戶情緒,若沒有直接表達情緒,也能從語氣、語速、停頓裡猜出用戶心情,然後給予回應。此外,也能完成複雜任務,用戶只需用自然語音下達指令,就能自動調用函數。
技術表現方面,新模型端到端S2S架構可以從語音輸入直接生成語音輸出,無需ASR+LLM+TTS多模組拼接,效率更高、延遲更低;Shared LLM層以5Hz幀率高效處理,SRH以25Hz幀率生成高品質語音,GPU計算開銷降低近50%;訓練內容覆蓋音訊理解、語音問答、情感識別、工具調用等真實場景。
阿里通義並開源了Fun-Audio-Chat 8B,該模型在OpenAudioBench、MMAU、Speech-ACEBench、VStyle等多個榜單上「同尺寸模型排名第一」,綜合性能超越GLM4-Voice、Kimi-Audio、Baichuan-Omni等。
Your AI Voice Partner: Smart, Empathetic & Useful
Open-sourced now!!!
Introducing Fun-Audio-Chat — a new end-to-end voice model, more than just chat.
· An empathetic companion that understands tone and emotion.
· A productivity helper that follows voice commands to get things… pic.twitter.com/ZT9GmiTCem— Tongyi Lab (@Ali_TongyiLab) December 23, 2025
(本文由 MoneyDJ新聞 授權轉載;首圖來源:Tongyi Lab)






