擔心被 AI 換臉技術禍害？Deepfake 糾察隊正在趕來

Deepfake 自問世以來，一路向人性陰暗面直奔。民間技術已能將 AI 換臉教程玩得不亦樂乎，但每個人更容易成為受害者：假造綁架影片勒索詐騙，不雅影片損毀名譽，或恐怖影片製造混亂，都因 Deepfake 開源技術變得空前容易。

▲ 讓名人換上小布希的臉部動作。（Source：影片截圖）

PS 摧毀大眾對圖片的信任後，Deepfake 也在摧毀大眾對影片的信任。沒有人想在網路看到自己的面孔說出沒說過的話，許多針對個人的傷害，也因為影響不夠大而投訴無門。

美國正在形成一支 Deepfake 糾察隊，不僅是學校實驗室、研究中心在找尋 Deepfake 的破綻，創業潮流也在興起。

但這是一場造假 AI 與辨別 AI「你有張良計，我有過牆梯」的競賽。每篇檢討 Deepfake 的論文，彷彿幫造假技術修補漏洞，進而更上一層樓。

關上 Deepfake 的潘多拉盒子，他們能做到嗎？

Shiva Kintali 離開擔任講師 4 年的普林斯頓大學電腦系，正在矽谷創業認證虛擬造影片，合作對象有警察、記者、保險公司等，透過機器學習找尋虛擬影片的破綻，用區塊鏈紀錄資訊等技術來輔助認證。

Kintali 的網站可上傳影像、音訊、影片來分析檢查是否有修改痕跡。他同時開發手機相機應用，用人工智慧為影像添加時間、地點浮水印，並將圖片初始資訊印至區塊鏈。一旦影像的資訊與原始圖片不符，就容易判斷真假。

這些產品希望幫助記者、媒體公司、政治競選團體、執法機構（如 FBI、NSA），保險公司（假事故照片的保險索賠問題）和大公司（如 Facebook、Twitter、Redditt、PornHub），在平台阻止假影片、假音訊、照片傳遞。

由於 Deepfake 降低了影片造假的門檻。面對真假難辨的影像資料，記者不知道能否發表，保險公司不知是應該理賠還是警告詐騙，警察收集證據後，也需要專業工具鑑定圖片和影片的真假。

目前流傳的假影片大多是「淺度造假」，但因數量多，造成無數困擾。史丹佛研究人員向認證公司確認困擾他們的三大問題：數量太多、可用認證時間太短、缺乏標準化工具。

因此，研究者搜尋能大規模應用的檢測方法。Facebook、Twitter 等社群網路爆炸式傳遞的圖片和影像，留給驗證真假的時間越來越短。大眾也不可能雇用專業人士認證。

商用化的影像驗證平台 Truepic 已上線智慧相機應用軟體。用戶將拍下的影像上傳至伺服器，建立時身分驗證照片和影片，獲得唯一編碼。相機應用擷取裝置的感測器資料，在傳送之前加密照片或影片，執行 20 多個影像取證測試，並在幾秒鐘內，將影像加密簽名印至公用區塊鏈，使資訊不可篡改。

這是一種「自證清白」的方式，適用電子商務平台和公民記者類用戶。如果用戶將圖片傳給接收者，Truepic 允許收件人驗證影像的原點和資料的完整性。任何二次傳遞的多媒體材料，都可與區塊鏈原始資訊對比，辨別真假。

在 Deepfake 的威脅下，鑑定圖片影片的真實性，都成了相機應用的賣點。但這類以營利為目的的產品又引起用戶的新擔憂。畢竟，誰能確保 Truepic 也不作惡？

位於矽谷的 SRI International AI 中心則「以毒攻毒」，用假影片訓練演算法，讓演算法辨識虛擬痕跡。在人們上傳影片到社交網站時，平台需要重新編碼影片。這是個偵測假影片的好時機。

但隨著 Deepfake 漏洞日漸最佳化，用演算法打演算法的難度也日益增加。

辨別 AI 原本就是訓練造假 AI 的一部分，兩者剛好在生成對抗性網路的兩端。一個是建構程式，一個是認證程式，道高一尺，魔高一丈。

由於 Deepfake 的技術在於篡改資料，認證方則搜尋一切篡改資料的痕跡。一種方法是基於像素的影片偵測，影片其實是成千上萬幀圖片連放，細致到偵測每個像素的改變痕跡，是頗浩大的工程。

此外，假的臉部表情仍有缺陷。假臉部表情往往與其他部分不一致，電腦演算法可偵測圖片或影片的不一致。

▲ 加州大學柏克萊分校研究者比對真假人物的臉部差異。（Source：柏克萊分校）

舉例來說，初代 Deepfake 影片的人物，眨眼方式都有點奇怪。

紐約州立大學奧爾巴尼分校電腦科學副教授 Siwei Lyu 曾撰文表示，成年人眨眼間隔為 2~10 秒，一次眨眼需要十分之一到十分之四秒。這是正常影片人物應有的眨眼頻率，但很多 Deepfake 影片的人做不到。

由於缺乏閉眼影像資料，演算法的訓練並不完美，影片人物面孔總有一種「哪裡不對」的不和諧感。

然而，透過閉眼的臉部影像、或使用影片串列訓練，可改善眨眼間隔。假影片的品質總會提高，而研究人員需要繼續找尋檢測漏洞的方法。

南加大研究者 Wael Abd-Almageed 表示，社群網路可使用演算法大規模辨識 Deepfake。為了做到自動化，研究人員首先建立一個神經網路，「學習」人類說話時如何行動的重要特徵。然後，研究人員使用這些參數將假影片的堆疊幀輸入 AI 模型，偵測隨時間的不一致性。

普渡大學研究人員也採用類似方法，他們認為，隨著訓練模型的 Deepfake 資料量越來越大，模型也會更精確，更容易找出假影片。

美國 2020 年總統大選在即，如何阻止 Deepfake 從低俗娛樂發展到操縱民意，是研究者最迫切的動力之一。但願一鍵辨假的速度，能追上一鍵換臉的速度。

（本文由 PingWest 授權轉載；首圖為示意圖，來源：pixabay）

想請我們喝幾杯咖啡？