聯發科創新基地發表 AI 語音辨識模型,更理解台灣用語口音,「發生」不會聽成「花生」

作者 | 發布日期 2025 年 07 月 01 日 15:00 | 分類 AI 人工智慧 , OpenAI , 軟體、系統 line share Linkedin share follow us in feedly line share
Loading...
聯發科創新基地發表 AI 語音辨識模型,更理解台灣用語口音,「發生」不會聽成「花生」

聯發科集團轄下的前瞻技術研究單位聯發創新基地(MediaTek Research)發表,採用 OpenAI Whisper AI 語音辨識開源模型 MediaTek Research Breeze ASR 25(後略 MR Breeze ASR 25)。

聯發科表示,MR Breeze ASR 25 更理解台灣用語及口音,台灣常見中英混合用語,也有更高辨識精準度。此外,模型以 Apache 2.0 條款釋出,以利促進百工百業在各類創意 AI 領域應用。

聯發創新基地負責人許大山博士表示,開源語音辨識模型雖逐年進步,但對於在地用語及口音的辨識度仍顯不足,例如把「發生什麼事」聽成「花生什麼事」。有鑑於語音辨識是 AI 應用的關鍵啟動功能,此次特別釋出「聽得懂在地語言」的 ASR 模型 MR Breeze ASR 25,其精準度相較於 OpenAI 的 Whisper 提升近 10%、中英語轉換表現(Code-switching)則增進 56%。藉此,聯發創新基地能以完整的繁體中文 AI ,積極推進繁體中文AI的創新並普及模型於地端及裝置端的使用。

聯發創新基地自 2025 年起已陸續開源全套繁體中文 AI 模型,包含整合視覺功能的語言模型 (Visual Large Language Models,V-LLM)、針對台灣口音調整的文字轉語音模型 (Text to Speech,TTS)、以及能調用外部資訊的函式呼叫(Function Calling)模型。此次釋出的MR Breeze ASR 25 為 MR Breeze 系列第二代語音辨識開源模型,能即時將語音轉為文字,並強化台灣語料口音,符合本土應用需求。而目前,MR Breeze ASR 25 已於 HuggingFace 上架。

(首圖來源:聯發科)

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》