想讓歐巴馬說什麼都可以！最新 AI「對嘴」技術可偽造幾可亂真的影片內容

眼睛看到的不一定可靠！過去，我們用 Photoshop 修出各種「照騙」，但最新 AI 技術，連影片中談話者的嘴形和聲音都可以修改，甚至逼真到難以從影片中察覺異狀。該研究可將聲音檔轉換為說話嘴形，並套用在其他影片中，改變影片主角原本的說話內容；也就是，雖然影片片段是真的，但說話的內容是假的。

華盛頓大學研究團隊發表一篇名為「同步歐巴馬：學習如何用聲音同步嘴形」的研究，而研究成果就是一系列美國前總統歐巴馬的「造假」影片。

該研究透過深度學習演算法，讓軟體從歐巴馬過去的演講影片中，學習如何將聲音檔轉換為嘴形變化，因此，當替影片配上新配音時，這套軟體可將新配音轉換為嘴形變化，再將嘴形移植到既有影片中。

▲ 該研究透過神經網路技術，從歐巴馬過去的演講影片中學習如何將聲音檔轉換為嘴形變化，再將嘴形移植到既有影片中。（Source：UW News）

雖然影片中的音檔確實來自歐巴馬過去說過的話，但說話場景卻完全不同。就像示範影片中，左邊是音檔來源，右邊是另一場完全不同的演講，但研究者透過演算法，將兩者結合成全新的影片。

研究者表示，之所以選擇歐巴馬為實驗對象，原因在於網路上可輕易取得大量歐巴馬公開談話的高畫質影音檔，適合用來訓練人工智慧。

和過去研究不同的是，該軟體不需要掃描大量的演講影音資料，也不需要分析不同人說出相同句子的嘴形，才能學會轉換聲音；其僅需要既有的影音素材即可，所需成本和規模更小。

研究者指出，該研究僅分析 17 小時的歐巴馬演講影片就達到此成果，希望未來可以將分析所需影片長度壓縮到 1 小時。

研究者表示，希望這款軟體可幫助優化歷史紀錄的影音檔案，或是用於改善 Skype 這類的視訊工具品質。例如，用戶可以收集他們自己說話的影片，並用以訓練軟體，之後當他們使用視訊工具時，影像便能自動符合說話內容，因此就算網路連線品質不佳，也能讓視訊畫面保持順暢。

不過，外界也擔心，這套軟體若遭惡意人士利用，後果不堪設想。例如，可先利用聲音合成技術模仿出歐巴馬的聲音，再加上這套已經訓練好、可將歐巴馬聲音轉換為嘴形的模型，即可讓歐巴馬說出從未說過的話。

事實上，人工智慧新創 Lyrebird 已經透過機器學習開發出聲音模擬技術。該公司號稱，只要 1 分鐘的聲音樣本，即可模仿任何人說話。

（本文由數位時代授權轉載；首圖來源：影片截圖）

從這裡可透過《Google 新聞》追蹤 TechNews

科技新知，時時更新