嘴型、語音都超級自然,新演算法可以像改錯字一樣直接微調影片人物談話內容

作者 | 發布日期 2019 年 06 月 18 日 13:09 | 分類 AI 人工智慧 , 尖端科技 follow us in feedly


對電視、電影錄製來說,演員照稿演出是相當重要的環節,截至目前為止,如果演員漏講某個關鍵詞,解決方法便只有重新錄製或接受結果,但如果就像文字紀錄,聲音影像也可簡單的從中間修改呢?美國研究團隊打造出這種能編輯談話影片的演算法,透過從影片片段擷取相關語音和嘴型,再使用機器學習調整得更自然,即使是編輯過的影像也看不出太多破綻。

對於剛剛上鏡說的話不太滿意嗎?那麼就用軟體編輯掉吧。史丹佛大學、普林斯頓大學和德國馬克斯普朗克電腦科學研究所、Adobe Research 研究團隊打造的演算法,將讓未來影片後製簡單許多,如果演員或談話者說錯單字或發音錯誤,程式便會從影片其他地方收集說出的各種單字或部分單詞,重新組裝話語──就像寫文章拼錯字或用了不合適的單字又回頭修改那樣簡單。

編輯副本影像時,演算法也會從原始影片的其他地方尋找可接在一起產生新材料的動作片段,但想當然組裝後的影片會有明顯的時間跳躍感和一些視覺缺陷,為了使影片看起來更自然,演算法將智慧平滑應用於運動參數,呈現出符合說話的 3D 動畫嘴型,接著再運用神經渲染(Neural Rendering)的機器學習技術,將 3D 模型轉換為完美唇形同步的逼真影片。

▲ 好奇編輯後的影片有多真實嗎?來看看團隊提供的幾個例子。

為了測試系統功能,研究人員進行一系列複雜的編輯,包括增加、刪減或修改單字,甚至是翻譯成不同語言或創造完整的句子,而在一項針對 138 名參與者的研究,團隊編輯過的內容近 60% 時間被評價為「真實」,即影片質量非常接近原始畫面。

論文第二作者、德國馬克斯普朗克電腦科學研究所學生 Ayush Tewari 是最早提出「不用重新拍攝修復對話」可能性的成員,Tewari 認為這項技術對影片後製的影響很大,像是教學影片便可根據不同語言或文化背景微調。這確實可想見,對能省下的成本和時間來說,這種編輯方式非常有價值,但同樣也引發重要的道德問題。

儘管仍有用於非法用途的疑慮,史丹佛大學博士後研究學者 Ohad Fried 還是認為這值得一試。就像照片編輯軟體也曾經類似過程,但最終,人們還是會希望生活在有照片編輯軟體的世界。

補救措施是 Fried 認為研究者可開發選擇加入的浮水印,來辨識編輯過的所有內容並提供完整分類,也可以開發更好的驗證方式來確認影片是否用於其他目的。只是雖然相關研究者已提出許多措施希望避免這種情況,Fried 強調,沒有一種解決方案可解決所有問題,觀眾必須持續保持懷疑和謹慎態度。

以目前來說,這項演算法還是有限制,需要至少 40 分鐘的人物談話原始影片為參考,在短片並不會發揮作用,團隊仍持續努力改進系統,但由於現在已有許多其他方式可輕鬆修改影片,Fried 認為,目前最迫切的應該是提供大眾對編輯影片的認知,使所有人多考慮質疑並評估合成內容的真實性。

研究論文將刊登在《ACM Transactions on Graphics》期刊,有興趣者可至 arXiv 查看預印本。

(首圖來源:shutterstock)

延伸閱讀: