阿里通義推新一代語音互動模型,可感知用戶情緒

作者 | 發布日期 2025 年 12 月 24 日 15:30 | 分類 AI 人工智慧 , 軟體、系統 line share Linkedin share follow us in feedly line share
Loading...
阿里通義推新一代語音互動模型,可感知用戶情緒

綜合中媒報導,阿里巴巴旗下通義大模型發布新一代端到端語音互動模型「Fun-Audio-Chat」,可提供「像朋友一樣的對話體驗」,能感知到用戶情緒,若沒有直接表達情緒,也能從語氣、語速、停頓裡猜出用戶心情,然後給予回應。此外,也能完成複雜任務,用戶只需用自然語音下達指令,就能自動調用函數。

技術表現方面,新模型端到端S2S架構可以從語音輸入直接生成語音輸出,無需ASR+LLM+TTS多模組拼接,效率更高、延遲更低;Shared LLM層以5Hz幀率高效處理,SRH以25Hz幀率生成高品質語音,GPU計算開銷降低近50%;訓練內容覆蓋音訊理解、語音問答、情感識別、工具調用等真實場景。

阿里通義並開源了Fun-Audio-Chat 8B,該模型在OpenAudioBench、MMAU、Speech-ACEBench、VStyle等多個榜單上「同尺寸模型排名第一」,綜合性能超越GLM4-Voice、Kimi-Audio、Baichuan-Omni等。

(本文由 MoneyDJ新聞 授權轉載;首圖來源:Tongyi Lab

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》