成長超過 330%，美英成重災區！一文了解 Deepfake 2020 發展現狀

「Deepfake 興起，讓影片和音樂不再是記錄歷史的可靠證據！」近日一則電影片段在 YouTube 爆紅，2 位主演分別是好萊塢頂級巨星席維斯·史特龍（Sylvester Stallone）和阿諾·史瓦辛格（Arnold Schwarzenegger）。

（Source：影片截圖）

然而短片爆紅的原因不是兩位巨星，而是逼真的合成效果。這部名為《爛兄爛弟》的電影主演是另兩位演員，短片創作者利用 Deepfake 將臉部替換成兩位巨星。

短片中人臉自然、毫無痕跡的融合效果，讓不少網友驚嘆太恐怖。但更讓人覺得恐怖的是短片背後，Deepfake 愈演愈烈的負面應用。自 2017 年，某 Reddit 用戶首次用來偽造色情影片開始，Deepfake 造假逐漸滲透到政治、媒體等多領域，甚至還威脅到今年美國總統大選。

同時偽造品數量也逐年增長，特別是 2020 年再次創下歷史新高，達 49,081 個。

那麼，快速增長的 Deepfake 有哪些特點，有哪些應對措施？

近些年，電腦視覺技術開始飛速發展。尤其是 2014 年生成式對抗網路（GAN）提出，讓圖像和影片合成不斷取得驚人效果。

2017 年，這項技術被不良分子用來偽造一支色情影片，自此人們稱為「Deepfake」，後來 Deepfake 負面應用不斷發酵，並逐漸涵蓋圖像、影片乃至音訊領域。

具體來說，Deepfake 主要是篡改和重新編輯人臉，包括表情修改，換臉、換嘴型、合成新臉 4 種模式。其中換臉和對嘴是 Deepfake 最主要的應用模式，破壞性和殺傷力也最強，如篡改政客演講及偽造色情影片。

值得注意的是，造假者無需了解這些修改模式背後的技術原理，諸多開源軟體已經可讓人輕鬆製造假內容。如 DeepFaceLab 之類工具，任何人都可拍一張圖片或影片，就替換或操縱人臉。

技術的普及和便捷性，讓造假品數量成等比級數增長。根據安全分析公司 Sensity 最新結果顯示：

自 2018 年 12 月以來，Deepfake 網路造假品數量約每 6 個月翻一倍。

2019 年 7 月 Deepfake 總數達 14,678 個，相比於 2018 年 12 月 7,964 部造假影片增加近 100%。截至今年 6 月，造假影片多達 49,081 支，比 2019 年 7 月增長 330% 以上。

2019 年，14,678 個公開的 Deepfakes 作品，假色情影片就占 96%。

據 Sensity 調查分析顯示，Deepfake 製作色情作品的目標對象超過 95% 來自影視娛樂業，只剩下一小部分來自商業、新聞媒體及政治領域。

今年影視娛樂仍是涵蓋最廣的行業，占 62.7%，加上時尚類別（21.7%）和運動類別（4.4%），總計占所有目標 88.9%。

其中娛樂行業 62.7% 占比，來自 Instagram、Twitch 及 YouTube 等社群媒體的目標數量顯著增加。同時商業（4.1%）和政治（4%）背景的目標也有增加。

值得注意的是，上述 4% 政治背景的目標對象，主要集中於知名政客，如川普、歐巴馬等。在資訊時代，利用這些政客身分偽造虛假政治言論，可能會造成災難性成果。

尤其隨著技術提升，偽造品越來越難以用肉眼分辨。去年，一名馬來西亞政治家就因涉嫌從事同性戀活動的影片被判入獄（馬來西亞同性戀是非法的），但後來證實影片是 Deepfake 偽造。

另外，比利時政治團體也曾利用 Deepfake 偽造一段川普關於巴黎氣候協定的演講影片，當時造成不小轟動。

總體來看，大部分有關政客的假作品多以諷刺為目的。

另外，這些虛假作品有明顯的地區分別特點。從 Sensity 的統計結果來看，政客偽造品主要集中西方國家，尤其美國和英國；同時南韓和印度今年也成為主要目標。

美國和英國整體占據 61%，超過一半。南韓（9.6%）、印度（5.0）和日本（4.0）也構成很大一部分。總體來看，說明亞洲的政治造假活動持續增長。

Deepfake 的危害無需再多說。為了應對日益氾濫的偽造品，學、政界和各大企業也在聯合發力，研發反 Deepfake 技術。

值得一提的是，Kaggle 和 Facebook 已經舉辦了多場 Deepfake 探測器研發競賽，並收集大量用於訓練的數據集。

Deepfake 檢測器主要透過對大量圖像和影片進行訓練，從中查找不同的 Deepfake 標識符來鑑別內容真偽。目前最先進的監測手段，分為以下幾種：

人臉 X 射線（ Face X-ray）檢測：它是一種將假臉重新混入目標圖像或影片，以從中尋找邊界的方法。經過 FaceForensics 數據集上測試，精準度可達 99% 以上。
背景差異檢測：該方法透過將人臉區域與背景區域進行對比，從中尋找微小差異以辨別真假。
情緒辨識網路（Emotion Recognition Network）：該方法透過檢測臉部情緒是否與場景上下文或音訊內容相匹配，來確定影片是真是偽。
生物學信號：透過檢測影片目標的心跳並分析該信號的殘差確定真假，該方法的準確率已達到 97.29%，同時還可以檢測背後所用的 Deepfake 模型。

以上大多數這些 Deepfake 檢測方法都沒有可用的開源程式碼，不過，目前也有一些商業上可用的 API，例如 Sensity、Deepware，以及微軟的 Video Authenticator。

此外，要說明的是，雖然人臉 X 射線檢測法精準度已經達到 99%，但它僅限於 FaceForensics 數據集，對於「Wild」數據集可能並不適用，很多其他檢測工具也是如此。

一位研究人員證實說，他上述某款模型用於《Step Brothers》和川普偽造影片檢測，結果並不能證偽。儘管川普的偽造影片有明顯的缺陷（嘴邊周圍有合成痕跡）。