想讓歐巴馬說什麼都可以!最新 AI「對嘴」技術可偽造幾可亂真的影片內容

作者 | 發布日期 2017 年 07 月 18 日 7:40 | 分類 AI 人工智慧 , 軟體、系統 line share follow us in feedly line share
想讓歐巴馬說什麼都可以!最新 AI「對嘴」技術可偽造幾可亂真的影片內容


眼睛看到的不一定可靠!過去,我們用 Photoshop 修出各種「照騙」,但最新 AI 技術,連影片中談話者的嘴形和聲音都可以修改,甚至逼真到難以從影片中察覺異狀。該研究可將聲音檔轉換為說話嘴形,並套用在其他影片中,改變影片主角原本的說話內容;也就是,雖然影片片段是真的,但說話的內容是假的。

僅分析 17 小時歐巴馬演講影片,所需資料量較過去小

華盛頓大學研究團隊發表一篇名為「同步歐巴馬:學習如何用聲音同步嘴形」的研究,而研究成果就是一系列美國前總統歐巴馬的「造假」影片。

該研究透過深度學習演算法,讓軟體從歐巴馬過去的演講影片中,學習如何將聲音檔轉換為嘴形變化,因此,當替影片配上新配音時,這套軟體可將新配音轉換為嘴形變化,再將嘴形移植到既有影片中。

▲ 該研究透過神經網路技術,從歐巴馬過去的演講影片中學習如何將聲音檔轉換為嘴形變化,再將嘴形移植到既有影片中。(Source:UW News)

雖然影片中的音檔確實來自歐巴馬過去說過的話,但說話場景卻完全不同。就像示範影片中,左邊是音檔來源,右邊是另一場完全不同的演講,但研究者透過演算法,將兩者結合成全新的影片。

研究者表示,之所以選擇歐巴馬為實驗對象,原因在於網路上可輕易取得大量歐巴馬公開談話的高畫質影音檔,適合用來訓練人工智慧。

和過去研究不同的是,該軟體不需要掃描大量的演講影音資料,也不需要分析不同人說出相同句子的嘴形,才能學會轉換聲音;其僅需要既有的影音素材即可,所需成本和規模更小。

研究者指出,該研究僅分析 17 小時的歐巴馬演講影片就達到此成果,希望未來可以將分析所需影片長度壓縮到 1 小時。

希望用於優化歷史影音檔案和視訊工具

研究者表示,希望這款軟體可幫助優化歷史紀錄的影音檔案,或是用於改善 Skype 這類的視訊工具品質。例如,用戶可以收集他們自己說話的影片,並用以訓練軟體,之後當他們使用視訊工具時,影像便能自動符合說話內容,因此就算網路連線品質不佳,也能讓視訊畫面保持順暢。

不過,外界也擔心,這套軟體若遭惡意人士利用,後果不堪設想。例如,可先利用聲音合成技術模仿出歐巴馬的聲音,再加上這套已經訓練好、可將歐巴馬聲音轉換為嘴形的模型,即可讓歐巴馬說出從未說過的話。

事實上,人工智慧新創 Lyrebird 已經透過機器學習開發出聲音模擬技術。該公司號稱,只要 1 分鐘的聲音樣本,即可模仿任何人說話。

(本文由 數位時代 授權轉載;首圖來源:影片截圖)