電腦聲音辨識力再提升,可區分不同來源類別

作者 | 發布日期 2016 年 12 月 07 日 8:20 | 分類 尖端科技 follow us in feedly

這幾年,電腦在辨認文字和圖像有顯著的進步,但在辨認聲音方面則還有許多進步空間。透過大量資料庫的累積和學習,現在電腦可以透過觀看影片的方式辨認聲音,其辨識的精確度甚至和人類逼近。




訓練方式

這幾年新出現的技術,像是 Facebook 針對使用者上傳的照片進行臉部辨識,都顯示了電腦在視覺辨識上的進步。然而,若要電腦能精準推斷某個聲音來自何種場景,例如群眾歡呼或者波浪拍打,實為一大技術上需要突破的門檻。

MIT 的 Computer Science and Artificial Intelligence Laboratory (CSAIL) 團隊,在最近一次的 Neural Information Processing Systems 會議當中,發表了一種更勝以往的聲音辨識系統。研究者善用了新系統可以在視覺分類和自然聲音之間找尋關聯性的特性,透過影片訓練系統學習聲音辨識。

研究團隊在訓練過程中使用了兩個標準化的聲音紀錄資料庫來測試他們的系統,發現表現結果比原先的模式多了 13~15% 的精準度。在具有 10 種不同聲音種類的範圍中,電腦的辨識可以達 92% 的精準度;若提高至有 50 種的資料庫中,則呈現 74% 的精準度。相同的情況下,人類處理資料分別是 96% 和 81% 的準確度。

學習過程共有兩次訓練。第一次以自動註釋的影像進行訓練。一個是 ImageNet data,包含 1,000 個不同物件的影像。另一個則是 Places 資料,包含 401 個被標註過的場景的影像,像是遊樂場、房間或者會議室。第二階段,當系統經過一次訓練後,研究者給系統觀看從 Flickr 上下載的 26 兆位元的影片,接著再以相同的影片訓練第二次。第二次的目標是讓系統可以靠著第一階段標注過的場景的影像進行更精準的預測。

應用

研究者認為聲音辨識系統可以用來改進行動裝置對於環境偵測的敏感度。舉例來說,搭配 GPS 的資料,聲音辨識系統可以在辨認出手機的使用者正在電影院等電影開演時,進行來電轉接。又或是和自動駕駛車做搭配,假設現在有輛救護車靠近當中,但汽車的駕駛並未注意到,自動駕駛車可以透過聲音預測救護車未來的行經路線改往別的方向行駛。隨著電腦對於影像和聲音辨識的進步,未來可以應用的層面也更加廣泛。

(首圖來源:達志影像) 

關鍵字: ,

發表迴響