不只認臉,AI 現在能從人群中找出你的聲音

作者 | 發布日期 2017 年 11 月 03 日 8:15 | 分類 AI 人工智慧 , 軟體、系統 follow us in feedly

智慧助理的語音辨識技術已經漸漸成為現代社會不可或缺的科技,除了 Apple 的 Siri 之外,Amazon 及 Google 更開發了家庭智慧助理,分別為 Echo 和 Google home,只要對機器說指令,舉凡開燈、放音樂、訂外送等,智慧助理都會幫你完成。



但是儘管科技公司不斷的在精進語言辨識的技術,智慧助理如 Amazon 的 Echo 仍無法在嘈雜的環境中辨認你的聲音。

近期位於美國麻州的三菱電子研究中心研發出一項技術,能在多人講話的情況辨認出你的聲音,並已於東京科技展亮相。

研究團隊表示,他們使用機器學習中一種稱為「deep clustering」的方法來辨認每個人的「聲音軌跡」(voiceprint),三菱電子發言人 Niels Meinke 說,一開始他們使用 100 個英語母語使用者來訓練機器學習模型,後來發現即使用帶有口音的聲音當訓練資料,機器也有辦法辨認出不同聲音。

相比傳統使用兩個麥克風模擬人耳的方法來辨認聲音,只有 52% 準確度,這套新方法在兩個人說話的環境下,辨認準確度可達 90%,就算 3 個人的環境也能有 80% 準確度。

多人環境下語音辨識的問題已困擾人工智慧界多年,這項新技術可望幫助智慧家庭助理、智慧汽車,甚至自動語言翻譯等領域的進步。三菱電子也表示,他們正計劃安裝語音辨識技術到自家冷氣、電梯等產品。

(首圖來源:Flickr/MsSaraKelly CC BY 2.0)

延伸閱讀: