除了即時光線追蹤，輝達圖靈架構還有這些 AI 圖像處理能力

前幾天，輝達（NVIDIA）發表全新 GPU 架構──Turing（圖靈），被黃仁勳視為 12 年來輝達 GPU 的最大躍進，無疑是計算機圖形領域的遊戲改變者。

圖靈架構最大核心亮點在於即時光線追蹤（Real Time Ray Tracing），能夠計算光線反射、折射、散射等路線，渲染出逼真的畫面，可為遊戲開發者提供電影級畫質的即時渲染，也就是讓遊戲看起來更像電影。據悉，這些新 GPU 依靠自身的一個特殊部分來快速呈現高解析度圖形，完成圖像的大部分成像工作後，使用人工智慧技術來猜測未完成的像素。

據了解，除了即時光線追蹤外，輝達的 GPU 還支援多種 AI 圖像處理能力，可謂大開外掛。

Adobe 的 AI 圖像處理外掛

上週舉辦的計算機圖形學年度會議 SIGGRAPH 2018，輝達發表全新圖靈架構，隨後展示一系列用於 Photoshop 和 Premiere 的外掛。這些外掛都利用最新的圖靈 GPU 架構和 Quadro RTX 系列顯卡支援的機器學習功能，能使 Photoshop 和 Premiere 一些常用功能更順暢執行，更少手動調整。

早在 2017 年，Adobe 在 AI 圖像處理就有很多案例。透過機器學習技術訓練電腦辨識和操縱數據，能讓圖像處理工具對圖像內容有更準確的理解和猜測，達到很多 P 圖高手都難以完成的效果。

之前曾有報導，2018 年 3 月，在 Adobe Summit 2018，Adobe 和輝達宣布雙方將利用 Nvidia GPU 最佳化 Adobe Sensei 人工智慧系統和機器學習框架。簡單地說，就是將 Adobe Sensei 建立在 Nvidia GPU 的硬體基礎上。

實際上，雙方的合作已持續十多年，不過之前都是在創意和數位體驗方面，Adobe 的圖片、影像等依賴 GPU 來運作圖形相關應用；不過這次合作核心是 Adobe 在 2016 年 9 月發表的 Sensei 人工智慧系統。

合作確立半年之後，輝達發表全新圖靈架構，也展示了雙方合作的成果。

筆者在輝達於 SIGGRAPH 大會的展台也看到這些外掛展示。

第一個外掛是 Super Rez。

Super Rez 的主要功能是為圖像添加更逼真的細節。如圖所示，狼群站在山腰，毛髮細節逼真，樹葉紋理清楚，放大後也很清晰，解析度能達 4K~8K。這個功能對大幅高清圖像很適用，例如大幅海報。從現場展示來看，這項功能大概需要 10 分鐘。

第二個外掛是 Inpaint。

這個外掛用 AI 增強 Photoshop 的內容感知填充。輝達展示的案例是，在陡峭的懸崖上繪製成群結隊的企鵝，企鵝腳下的岩石看起來像真的岩石一樣粗糙，並不像用傳統的畫筆從附近區域複製過來。

據了解，Inpaint 這個技術由輝達 Guilin Liu 領導的團隊開發，運用最先進的深度學習，可編輯重建損壞的圖像，同時也可移除部分圖像並重新填充來編輯圖像。

「我們的模型可穩健處理任何形狀、大小、位置距離的圖像破洞。以前的深度學習主要關注圖像中心周圍的矩形區域，並且通常依賴昂貴的後製處理。」

▲ 使用 Inpaint 修掉多餘的樹。

為了準備訓練用的神經網路，團隊首先生成 55,116 個隨機條紋和任意形狀和大小的圖像破洞。團隊使用 NVIDIA Tesla V100 GPU 和 cuDNN 加速的 PyTorch 深度學習框架，透過生成圖像破洞的蒙版應用於 ImageNet、Places2 和 CelebA-HQ 數據集的圖像，來訓練神經網路。訓練階段，將破洞或缺失部分引入上述數據集的完整訓練圖像，以使網路學習重建丟失的像素。

目前，輝達展示的 Inpaint 在 6,300 美元的 Quadro RTX 6000 顯卡執行，但達到效果所花費的時間依然不短。或許因為如此，輝達表示沒有計劃發表這些外掛，只是展示新顯卡和 NVIDIA 的 NGX SDK 的可能性。

相比於價格高昂的 Quadro 系列，輝達 8 月 21 日發表的幾款針對遊戲玩家的 Geforce RTX 顯卡價格則親民很多。

草圖影像生成真實影像

輝達與 Adobe 合作的這幾款外掛看起來都很正常，而輝達與 MIT 合作的一項影像生成技術看起來尤為酷炫。

不知道是否有人看過韓劇《W──兩個世界》，這部大紅韓劇中，男主角從一本漫畫裡走出來，女主角也能在二次元和三次元之間隨意穿梭。

輝達新技術向我們展示了「腦洞大開」的韓劇也有實現的可能，用線條畫一個帥哥，然後一鍵轉換，真實的眉眼就出來了，就這麼神奇。

效果如下：給一張簡單線條組成的素描草圖，就能生成細節豐富的人臉，臉型、鼻子、眼睛、嘴巴等五官、髮型等都和草圖輪廓一致，最厲害的是生成人物還能流暢動作。

目前，我們能看到的圖像處理技術能做到的主要是背景分割、人臉區域分割，用來調整髮型、髮色、五官，像這樣根據草圖直接生成嶄新人臉，不免讓人訝異。

除了人物，輝達和 MIT 這項技術也可用於實景，合成長達 30 秒的 2K 解析度街景。

右邊是一幅動態語義地圖，左邊則和真實世界一樣。可以看到，兩邊場景的布局完全一樣，所以這並不是找相似的影像出來，而是依樣畫葫蘆全新生成的。

由於是電腦生成的，你可以修改影像元素，例如，將道路兩側全部變成樹木，或全部變成建築。

據了解，此計畫由輝達和 MIT 組成的團隊開發，包括輝達的 Ting-Chun Wang、劉明宇（Ming-Yu Liu），以及 MIT 的朱俊彥（Jun-Yan Zhu）等。

以上幾位研究員合著一篇名為「Video-to-Video Synthesis」的論文，論文摘要說，研究影像到影像的合成問題，目標是學習從輸入源影像（例如，一系列的語義分割掩碼）到輸出照片級影像的映射眼熟，輸出影像能精確描繪原影像內容。論文提出一種新型的生成對抗網路框架下的影像到影像合成方法。透過精心設計生成器和判別器架構，結合空間─時間對抗目標函數，在多種輸入影像格式下生成了高解析度、時間連貫的照片級影像，其中多種形式的輸入包括分割掩碼、草圖和姿態圖。

影像合成的 demo 很酷炫，可以想像，以後影視製作一些部分完全可以不用實景拍攝，畫個簡單幾筆然後合成真實影像就可以了。但很顯然，這個影像到影像的合成技術，比前面介紹 Adobe 用到的 AI 圖像處理技術還要難達成，目前還停在實驗室階段。

GPU 與 AI 圖像處理

圖靈架構的即時光線追蹤無疑最讓人驚歎，能計算光線反射、折射、散射，渲染出逼真的畫面，對遊戲、影視的畫面效果會帶來很大的提升。

此外，圖靈架構還有更多特性：

Tensor Core 可加速深度神經網路訓練和推理。
圖靈流式多處理器（Turing Streaming Multiprocessor）架構擁有 4,608 個 CUDA core，可提供高達 16teraflops 的計算性能，並執行每秒 16 兆次整數運算，以加速模擬真實世界的物理模擬。
先進的可編程著色技術可提高複雜視效和圖形密集型工作體驗。
首次採用超快速的三星 16Gb GDDR6 內存，支援更複雜的設計、大量建築數據集、8K 電影內容等。
NVIDIA NVLink 可透過高速鏈路聯通兩個 GPU，將內存容量擴展至 96GB，並可透過高達 100GB/s 的數據傳輸提供更高性能。
增強型技術可提高 VR 應用性能，包括可變速率著色（Variable Rate Shading）、多視角渲染（Multi-View Rendering）和 VRWorks Audio。

計算機圖形領域一直追逐更清晰的圖像顯示、更逼真的渲染、更快的處理速度，GPU 的性能提升不斷實現這些目標。如今，AI 與圖像處理的結合帶來更多可能性，這也是不少公司都在布局的方向。

今年 WWDC，蘋果重點介紹 Metal 和 ML 兩大技術。2014 年蘋果推出 Metal，能利用 GPU 獲得更高的圖形計算能力，使一些操作遊戲如《要塞英雄》在 iPhone 執行。透過支援 eGPU，Metal 使蘋果裝置獲得更逼真的 3D 渲染效果，還能幫助 Unity 達到即時光線渲染效果。

此外，Metal 另一大特色在於，支援機器學習，加速訓練神經網路這種計算密集型任務。因此基於 Metal 開發的機器學習工具 Core ML 也能利用 GPU，效率得到很大提升。

GPU 和 AI 技術的提升，無疑將對 VR 的發展有推動作用，期待更多酷炫的 AI 圖像處理技術誕生。

（本文由雷鋒網授權轉載；首圖來源：輝達）