Google 發表音訊分離技術，可抽離影片中各人物的語音

Google 發表了名為 Audio-Visual Speech Separation 的音訊分離技術，能夠透過分析影像以及聲音的特徵，將影片中各人物所說的話分離成獨立音軌，如此一來就能讓觀眾在雙人同時講話的影片中，自由選擇要聽誰的語音，此外這項技術也能用來分離背景雜音，強化視訊通話時的音質表現。

人工智慧協助分析

當人類專注於聆聽某個人說話時，頭腦會「自動調低」其他人與環境雜音的音量，讓人可以在吵雜的場合也能彼此交談。然而要透過電腦個別人物的語音單獨抽離出來，仍然是個相當艱鉅的挑戰。

Google 的軟體研發團隊在《Looking to Listen at the Cocktail Party》一文中，提出了透過深度學習與聲音-影像模型的方式分離語音的技術，能夠強化影片中特定人物的語音，並消除其他人的聲音與環境音。

這項技術最大的特色，在於它會同時分析影片中的影像與聲音，透過辨識人物表情的變化，提升辨識精準度，同時它也能應用於一般單聲道影片，系統會自動辨識影片中的人物與聲音，觀眾需要做的只要點選影片中出現的人臉，就能只聽到他的聲音。

在研發過程中，團隊引用了 10 萬支 YouTube 只有單一講者的無干擾演講影片，並將這些總時數長達 2,000 小時的影片混入其他演講影片與背景雜音，以用於訓練多重串流卷積神經網路（Multi-Stream Convolutional Neural Network），讓人工智慧發揮分離音訊的效果。

▲ Audio-Visual Speech Separation技術可以將影片中不同人的聲音分離。（Source：Looking to Listen at the Cocktail Party）

▲ 該技術不但會分析聲音，也會分析影片中人物的嘴型與表情。（Source：Looking to Listen at the Cocktail Party）

▲ 在人工智慧的協助下，這項技術能夠分離多個人物的語音與背景雜音。（Source：Google Research Blog）

實際效果展示

開發團隊也公布了許多 Audio-Visual Speech Separation 的展示影片，讀者可以從下列影片中看出這項技術的效果確實十分出色。

▲ 隨著影片的播放，可以看到切換到不同音軌時，就只會出現指定人物的語音。

▲ 原始影片為 2 人激烈爭論，在 Audio-Visual Speech Separation 的處理下，可以讓觀眾選擇只聽右方主播的聲音。

▲ Audio-Visual Speech Separation 也能用來消除背景雜音。

▲ 這項技術也可以應用於強化視訊通話的音質表現。

開發團隊表示，Audio-Visual Speech Separation 除了有助於讓觀眾選擇想要聆聽的人物聲音之外，也能用來消除背景雜音，強化影片與視訊通話的音質表現，此外，將音訊分離後也有助於提升語音辨識系統自動產生字幕的精確度，適用範圍相當廣泛，Google 也在研究如何應用於其他 Google 產品上，或許在不久的未來就能在更多地方看到這項技術。

（本文由 T客邦授權轉載；首圖來源：pixabay）