Google 發表音訊分離技術,可抽離影片中各人物的語音

作者 | 發布日期 2018 年 04 月 16 日 8:15 | 分類 AI 人工智慧 , Google , 尖端科技 line share follow us in feedly line share
Google 發表音訊分離技術,可抽離影片中各人物的語音


Google 發表了名為 Audio-Visual Speech Separation 的音訊分離技術,能夠透過分析影像以及聲音的特徵,將影片中各人物所說的話分離成獨立音軌,如此一來就能讓觀眾在雙人同時講話的影片中,自由選擇要聽誰的語音,此外這項技術也能用來分離背景雜音,強化視訊通話時的音質表現。

人工智慧協助分析

當人類專注於聆聽某個人說話時,頭腦會「自動調低」其他人與環境雜音的音量,讓人可以在吵雜的場合也能彼此交談。然而要透過電腦個別人物的語音單獨抽離出來,仍然是個相當艱鉅的挑戰。

Google 的軟體研發團隊在《Looking to Listen at the Cocktail Party》一文中,提出了透過深度學習與聲音-影像模型的方式分離語音的技術,能夠強化影片中特定人物的語音,並消除其他人的聲音與環境音。

這項技術最大的特色,在於它會同時分析影片中的影像與聲音,透過辨識人物表情的變化,提升辨識精準度,同時它也能應用於一般單聲道影片,系統會自動辨識影片中的人物與聲音,觀眾需要做的只要點選影片中出現的人臉,就能只聽到他的聲音。

在研發過程中,團隊引用了 10 萬支 YouTube 只有單一講者的無干擾演講影片,並將這些總時數長達 2,000 小時的影片混入其他演講影片與背景雜音,以用於訓練多重串流卷積神經網路(Multi-Stream Convolutional Neural Network),讓人工智慧發揮分離音訊的效果。

▲ Audio-Visual Speech Separation技術可以將影片中不同人的聲音分離。(Source:Looking to Listen at the Cocktail Party

▲ 該技術不但會分析聲音,也會分析影片中人物的嘴型與表情。(Source:Looking to Listen at the Cocktail Party

▲ 在人工智慧的協助下,這項技術能夠分離多個人物的語音與背景雜音。(Source:Google Research Blog

實際效果展示

開發團隊也公布了許多 Audio-Visual Speech Separation 的展示影片,讀者可以從下列影片中看出這項技術的效果確實十分出色。

▲ 隨著影片的播放,可以看到切換到不同音軌時,就只會出現指定人物的語音。

▲ 原始影片為 2 人激烈爭論,在 Audio-Visual Speech Separation 的處理下,可以讓觀眾選擇只聽右方主播的聲音。

▲ Audio-Visual Speech Separation 也能用來消除背景雜音。

▲ 這項技術也可以應用於強化視訊通話的音質表現。

開發團隊表示,Audio-Visual Speech Separation 除了有助於讓觀眾選擇想要聆聽的人物聲音之外,也能用來消除背景雜音,強化影片與視訊通話的音質表現,此外,將音訊分離後也有助於提升語音辨識系統自動產生字幕的精確度,適用範圍相當廣泛,Google 也在研究如何應用於其他 Google 產品上,或許在不久的未來就能在更多地方看到這項技術。

(本文由 T客邦 授權轉載;首圖來源:pixabay