與假影片誓不兩立！Google AI 開源 Deepfake 檢測數據集，3 千多位真人親自上陣

在不久前，Facebook 發起了 Deepfakes 檢測挑戰賽；而近日，Google AI 就跟著強勢推出 Deepfake 影片檢測資料庫，勢將一同與虛假影片誓不兩立。

資料庫共含 28 個不同場景下，由真人演員現場拍攝的 3 千多段影片。Google 希望透過這些影片，維護整個社會的網路安全環境，並使開發者利用這些數據，開發新的 Deepfake 檢測工具，更有效率辨識 Deepfake 假影片。Google 也在部落格發表文章介紹資料庫。

（Source：Google AI Blog，下同）

Deepfake 影片檢測數據集背景

近幾年來，深度學習的發展催生曾認為不可能實現的技術。現代生成模型就是例子之一，能合成超現實主義的圖像、語音、音樂甚至影片。這些模型廣泛用於各種各樣應用，像是透過文本到語音的方式使世界各國的人更容易溝通，或是生成醫學成像的訓練數據等。

與任何變革性技術一樣，這些技術也帶來新挑戰。所謂「Deepfake」就是其中之一，可由操縱影片和音頻剪輯的深度生成模型製作而得。自從 2017 年底首次出現，就有許多開源的 Deepfake 生成方法流入市面，導致合成媒體剪輯影片的數量不斷增加。雖然許多人可能只是出於趣味性目的，但一旦落入不法分子手裡，就可能對個人和社會造成極大的危害。

Google 認真考慮了這些問題。正如去年的《人工智慧原則》表示：「我們致力於開發 AI 的最佳實踐，以減少技術的濫用帶來的潛在危害。」

2018 年 1 月，Google 宣布發表合成語音資料庫，以支持開發高性能合成音頻檢測器的國際挑戰賽。挑戰賽的一部分，是資料庫只供給共計超過 150 個研究機構和工業組織下載；從此刻起，資料庫免費對大眾開放。

Deepfake 影片檢測數據集介紹

Google 與 Jigsaw 合作，並發表自製的大型可視化資料庫，納入 Face Forensics 影片基準測試。基準測試是德國慕尼黑工業大學和義大利拿坡里費德里克二世大學開發的圖像測試。將這些數據納入 Face Forensics 影片基準的是由包括 Matthias Niessner 教授、Luisa Verdriva 教授和 Face Forensics 團隊在內的主要研究人員合作開發。

為了製作資料庫，過去一年，Google 與眾多演員合作錄製數百段影片；並使用公開的 Deepfake 生成方法，從這些影片創建數千個 Deepfake 假影片。

這些由真實影片和假影片組成的資料庫組成可用於 Deepfake 檢測和辨識的素材。Face Forensics 基準測試的一部分，資料庫現免費提供給研究社群，研究者可用來開發合成影片檢測的方法。

▲ 演員在各種場景拍攝的影片。上為真實影片，下為 Deepfake 影片，兩者之間可能有或微妙或劇烈的變化。

Face Forensics++ 與 Deepfake 檢測數據集

Face Forensics++ 是由 1,000 支原始影片序列組成的檢測資料庫，這些影片序列透過 4 種自動臉部操作方法操作，即 Deepfakes、face 2 face、faceswap 和 Neural Textures。這些數據源於 977 支 YouTube 影片，所有影片都包含一張沒有遮擋的正面人像，這使自動篡改法能使偽造更真實。

由於此方法提供二進制遮罩，因此這資料庫可用於圖像和影片分類及分割。此外，Face Forensics++ 還提供 1,000 個 Deepfakes 模型生成和擴充新數據。有關更多資訊可參考網站。