看過蒙娜麗莎開口說話嗎?三星開發新 AI 模型,只需幾張圖片便能造假成動態影片

作者 | 發布日期 2019 年 05 月 24 日 19:55 | 分類 AI 人工智慧 , 尖端科技 follow us in feedly


要打造令人信服的 deepfakes 影片,神經網路模型往往需要經過大量數據訓練才能達成,但現在三星(Samsung)莫斯科 AI 研究中心的團隊已經開發出一種方法,只需要「少許」影像數據就能打造出可信度相當高的談話影片。但少許究竟是多少?根據團隊的描述,這個數字可以是 32 張或 8 張照片,又或者更少一些──1 張照片也行。

據了解,這款 AI 模型是使用卷積神經網路(CNNs)所打造,團隊先是使用 VoxCeleb 公開數據庫中超過 7,000 張名人圖像對演算法進行了訓練,讓 AI 關注於辨識人們臉部的「地標」特徵,像是眼睛、嘴巴形狀、鼻樑長度和形狀,它開始能以相似的做法應用在其他照片上,使照片活過來。

由於 AI 模型最少只需要 1 張照片便可以進行,這意味著歷史人物或肖像畫都能夠適用,在影片中,可以看到愛因斯坦、杜斯妥也夫斯基和夢露的著名肖像動起來,就好像他們在現代生活,被一旁友人拍下講話的畫面一樣。

▲ 想看歷史人物、畫像人物動起來的可直接移動至 4:18 處。

當然,使用越多照片的效果明顯越好,只使用 1 張照片製作的 deepfakes 影片很容易就能從背景、臉部表情的不自然看出造假痕跡,只是隨著使用的對象生活年代越早,也越難從影片中看出虛假──畢竟許多人在攝影技術普及前早已離世,並沒有留下實際的談話影片讓我們能夠對照真偽。

要說這個 AI 模型最讓人驚豔的一點,應該還是讓畫像人物也能夠動起來的部分,以知名的「蒙娜麗莎」為例,過去即使前往羅浮宮美術館朝聖,頂多也只能感覺蒙娜麗莎像從任何角度都在看著你,可沒有辦法看到蒙娜麗莎對你眨眨眼,又或者像是在談起生活瑣事。

▲ 在造假技術協助下,畫像中的人物就像被賦予了生命。

隨著 deepfakes 技術越來越進步,許多人都開始擔心相關技術被應用在惡意用途,讓未來即使看到影片、聽到聲音檔仍「眼見不能為憑」。儘管潛在疑慮仍然存在,但至少以目前來說,還未有任何 deepfakes 影片造成嚴重的混亂事件──當然,這是目前啦,未來會如何發展就不好說了。

(圖片來源:arXiv via Egor Zakharov

延伸閱讀:

關鍵字: , , , ,