AI 突破次元壁又來了!《天外奇蹟》角色 1 秒變真人

作者 | 發布日期 2020 年 10 月 24 日 0:00 | 分類 AI 人工智慧 , 科技趣聞 Telegram share ! follow us in feedly


從「換臉」到「生成動畫臉」,AI 影像合成技術已非常成熟。

因為支援一鍵切換,且效果逼真,之前抖音「變身漫畫」特效還登上微博熱搜,從明星到路人,近千萬用戶使用。國外也有一款「秒變迪士尼公主」工具,上線當天就因為瀏覽量過大被迫關門一陣子。

從髮型、臉部輪廓到五官,一切自訂化動畫臉,感覺不用後期處理就能直接去演電影了。

這件事引起 AI 藝術家 Nathan Shipley 的好奇心,AI 生成動畫臉如此逼真,那麼反過來,將動畫角色轉成「真人」效果會怎麼樣?剛好最近國外研究團隊推出一通用版 AI 模型:Pixel2Style2Pixel(pSp)。

因此 Shipley 便利用這款 AI 模型,嘗試轉換《超人特攻隊》、《天外奇蹟》等動畫電影角色,結果也因效果太好登上 Reddit 熱門榜。

《超人特攻隊》的「飛毛腿」巴小飛,「真人版」形象也太有喜感了。

仔細看頭髮、眉毛等細節都轉得不錯。

還有彈力女超人巴荷莉、超能先生巴鮑伯,除了鮑伯誇張的動畫臉型,這些角色似乎也能在現實世界找到真人演員。

不過《天外奇蹟》的小羅是不是出了什麼錯?五官正常,但髮型怎麼怪怪的……

其實是 AI 把小羅的帽子當成頭髮了,結果就變成這樣。網友笑說改成「貓王」髮型也很酷!

不只動畫角色真人化,這款通用 AI 模型還可用在畫作轉換。如果說動畫角色真人化還有些卡通風,那麼迪亞哥·里維拉(Diego Rivera)兩幅畫的還原效果也很高品質。

這項技術如何達成的?

pSp:通用版影像合成模型

Pixel2Style2Pixel(pSp)是影像到影像的轉換框架,由 Penta-AI 和以色列特拉維夫大學的 Elad Richardson、Yuval Alaluf 等人在名為《Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation》的論文提出。

pSp 框架基於新編碼器網路,可直接生成一系列樣式向量,送入預先訓練的 StyleGAN 建構程式,形成可延伸的 W+ 潛在空間。

pSp 是簡單的架構,透過特徵金字塔延伸三等級特徵對映,中間網路 map2style 負責從匯入端擷取樣式,然後將樣式按照一定比例傳輸到建構程式(StyleGAN Generator),最後匯出影像。過程中完成畫素轉換的「中間樣式表示」帶來不依賴局部畫素到畫素對應的全域方法,且透過風格重取樣支援多模態合成。

總體來說,相較傳統 StyleGAN 模型,pSp 新型編碼器架構在影像合成有兩項進步,一是能將真實臉部影像直接編碼到 W+ 潛在域;二是解決點到點通用任務。

為了評估 pSp 框架影像到影像轉換的有效性,研究人員測試了常見的影像處理如臉部正面化、條件面合成和超解析度。

實驗測試及結果

StyleGAN Inversion

目標是在潛在域尋找真實影像的潛在程式碼。研究人員比對 pSp 與 ALAE 和 IDInvert 架構的編碼器。ALAE 基於 StyleGAN 的自動編碼器,與建構程式一起訓練以生成潛在程式碼。IDInvert 是將真實影像嵌入預先訓練的 StyleGAN 潛在域,然後將影像編碼為 W+,再最佳化生成的潛在影像。

從實驗結果來看,ALAE 在 W 域無法準確重建匯入影像,而 IDInvert 雖然保留了影像原始屬性,但顯然更細節的處理步入 pSp 模型。

臉部正面化(Face Frontalization)

由於缺少高品質且完整的臉部數據庫,臉部正面化對影像轉換框架來說是艱難的挑戰。確保訓練和編碼器一致情況下,pSp 處理時從兩方面最佳化。一是目標增強,一是削弱背景。

  • 目標增強:pSp 會隨機翻轉目標影像,並生成與匯入影像不一致的姿態。如果沒有影像增強過程,模型只會簡單學習匯入影像的編碼符合姿態。
  • 削弱背景:為了降低背景影像對臉部的干擾,pSp 降低損失目標的權值(如降低 LPIPS 和 L2 損失函數)

實驗結果如下:

使用相同資料訓練時,pix2pixHD 無法收斂到令人滿意的結果,因更依賴匯入和匯出對的對應關係。相反地,PsP 能成功保持身分同時生成逼真的正面臉。另外,轉化過程採用 3D 對齊也有不錯表現。

這表明,即使無數據標記的情況下,基於風格的轉換機制也能克服臉部正面化的挑戰。

條件影像合成(Face From Sketch)

目標是在指定匯入影像下生成具真實感的影像。比如從簡筆草稿生成高品質臉部,條件影像合成是單體對映,理想對映框架應能給定匯入生成多個不同匯出,因此 pSp 採用一種多模態綜合法。

草稿生成臉部的實驗,常用方法要求匯入草稿與生成影像畫素對應,以產生與匯入對齊的匯出。如果匯入不完整,可能無法有效轉化草稿到影像,如 pix2pixHD。

從實驗結果來看,pix2pixHD 處理抽象草稿的視角效果很差,故 pSp 提供專門的對映網路。

與 pix2pixHD 相比,FaceDrawing 繪製可取得更滿意的效果,但多樣性仍然受限制,相反 pSp 有不同匯出的能力,且更能保留細節(如毛髮)。

超解析度(Super Resolution)

目標是基於低解析度(LR)匯入影像轉化為高解析度(HR)臉部影像。常用方法是採用脈衝(PULSE)無監督。具體而言,對給定的 LR 匯入影像,脈衝遍歷 HR 影像流,以搜尋縮小到初始 LR 影像的 HR 影像。

但不同的是,研究人員研究有監督方式下,應用 pSp 的解決效果。從實驗比較結果來看,pix2pixHD 在 16×16 向下取樣,以及 PULSE 在 8×8 取樣時,視覺上均明顯失真。pSp 均能在初始影像的基礎上,獲得更有真實感的影像。

研究人員還展示 pSp 模型在局部編輯、影像修復和臉部影像內建應用等的效果,更多內容可見論文

這款 AI 模型已在 Github 開源,感興趣的讀者可自己體驗,看看喜歡的動畫角色真人化後會變成什麼模樣。

(本文由 雷鋒網 授權轉載;首圖來源:Nathan Shipley

延伸閱讀: