阿里通義推新一代語音互動模型，可感知用戶情緒

綜合中媒報導，阿里巴巴旗下通義大模型發布新一代端到端語音互動模型「Fun-Audio-Chat」，可提供「像朋友一樣的對話體驗」，能感知到用戶情緒，若沒有直接表達情緒，也能從語氣、語速、停頓裡猜出用戶心情，然後給予回應。此外，也能完成複雜任務，用戶只需用自然語音下達指令，就能自動調用函數。

技術表現方面，新模型端到端S2S架構可以從語音輸入直接生成語音輸出，無需ASR+LLM+TTS多模組拼接，效率更高、延遲更低；Shared LLM層以5Hz幀率高效處理，SRH以25Hz幀率生成高品質語音，GPU計算開銷降低近50%；訓練內容覆蓋音訊理解、語音問答、情感識別、工具調用等真實場景。

阿里通義並開源了Fun-Audio-Chat 8B，該模型在OpenAudioBench、MMAU、Speech-ACEBench、VStyle等多個榜單上「同尺寸模型排名第一」，綜合性能超越GLM4-Voice、Kimi-Audio、Baichuan-Omni等。

Your AI Voice Partner: Smart, Empathetic & Useful
Open-sourced now!!!
Introducing Fun-Audio-Chat — a new end-to-end voice model, more than just chat.
· An empathetic companion that understands tone and emotion.
· A productivity helper that follows voice commands to get things… pic.twitter.com/ZT9GmiTCem

— Tongyi Lab (@Ali_TongyiLab) December 23, 2025