除了即時光線追蹤,輝達圖靈架構還有這些 AI 圖像處理能力

作者 | 發布日期 2018 年 08 月 25 日 10:03 | 分類 AI 人工智慧 , GPU , 軟體、系統 follow us in feedly

前幾天,輝達(NVIDIA)發表全新 GPU 架構──Turing(圖靈),被黃仁勳視為 12 年來輝達 GPU 的最大躍進,無疑是計算機圖形領域的遊戲改變者。



圖靈架構最大核心亮點在於即時光線追蹤(Real Time Ray Tracing),能夠計算光線反射、折射、散射等路線,渲染出逼真的畫面,可為遊戲開發者提供電影級畫質的即時渲染,也就是讓遊戲看起來更像電影。據悉,這些新 GPU 依靠自身的一個特殊部分來快速呈現高解析度圖形,完成圖像的大部分成像工作後,使用人工智慧技術來猜測未完成的像素。

據了解,除了即時光線追蹤外,輝達的 GPU 還支援多種 AI 圖像處理能力,可謂大開外掛。

Adobe 的 AI 圖像處理外掛

上週舉辦的計算機圖形學年度會議 SIGGRAPH 2018,輝達發表全新圖靈架構,隨後展示一系列用於 Photoshop 和 Premiere 的外掛。這些外掛都利用最新的圖靈 GPU 架構和 Quadro RTX 系列顯卡支援的機器學習功能,能使 Photoshop 和 Premiere 一些常用功能更順暢執行,更少手動調整。

早在 2017 年,Adobe 在 AI 圖像處理就有很多案例。透過機器學習技術訓練電腦辨識和操縱數據,能讓圖像處理工具對圖像內容有更準確的理解和猜測,達到很多 P 圖高手都難以完成的效果。

之前曾有報導,2018 年 3 月,在 Adobe Summit 2018,Adobe 和輝達宣布雙方將利用 Nvidia GPU 最佳化 Adobe Sensei 人工智慧系統和機器學習框架。簡單地說,就是將 Adobe Sensei 建立在 Nvidia GPU 的硬體基礎上。

實際上,雙方的合作已持續十多年,不過之前都是在創意和數位體驗方面,Adob​​e 的圖片、影像等依賴 GPU 來運作圖形相關應用;不過這次合作核心是 Adobe 在 2016 年 9 月發表的 Sensei 人工智慧系統。

合作確立半年之後,輝達發表全新圖靈架構,也展示了雙方合作的成果。

筆者在輝達於 SIGGRAPH 大會的展台也看到這些外掛展示。

第一個外掛是 Super Rez。

Super Rez 的主要功能是為圖像添加更逼真的細節。如圖所示,狼群站在山腰,毛髮細節逼真,樹葉紋理清楚,放大後也很清晰,解析度能達 4K~8K。這個功能對大幅高清圖像很適用,例如大幅海報。從現場展示來看,這項功能大概需要 10 分鐘。

第二個外掛是 Inpaint。

這個外掛用 AI 增強 Photoshop 的內容感知填充。輝達展示的案例是,在陡峭的懸崖上繪製成群結隊的企鵝,企鵝腳下的岩石看起來像真的岩石一樣粗糙,並不像用傳統的畫筆從附近區域複製過來。

據了解,Inpaint 這個技術由輝達 Guilin Liu 領導的團隊開發,運用最先進的深度學習,可編輯重建損壞的圖像,同時也可移除部分圖像並重新填充來編輯圖像。

「我們的模型可穩健處理任何形狀、大小、位置距離的圖像破洞。以前的深度學習主要關注圖像中心周圍的矩形區域,並且通常依賴昂貴的後製處理。」

▲ 使用 Inpaint 修掉多餘的樹。

為了準備訓練用的神經網路,團隊首先生成 55,116 個隨機條紋和任意形狀和大小的圖像破洞。團隊使用 NVIDIA Tesla V100 GPU 和 cuDNN 加速的 PyTorch 深度學習框架,透過生成圖像破洞的蒙版應用於 ImageNet、Places2 和 CelebA-HQ 數據集的圖像,來訓練神經網路。訓練階段,將破洞或缺失部分引入上述數據集的完整訓練圖像,以使網路學習重建丟失的像素。

目前,輝達展示的 Inpaint 在 6,300 美元的 Quadro RTX 6000 顯卡執行,但達到效果所花費的時間依然不短。或許因為如此,輝達表示沒有計劃發表這些外掛,只是展示新顯卡和 NVIDIA 的 NGX SDK 的可能性。

相比於價格高昂的 Quadro 系列,輝達 8 月 21 日發表的幾款針對遊戲玩家的 Geforce RTX 顯卡價格則親民很多。

草圖影像生成真實影像

輝達與 Adobe 合作的這幾款外掛看起來都很正常,而輝達與 MIT 合作的一項影像生成技術看起來尤為酷炫。

不知道是否有人看過韓劇《W──兩個世界》,這部大紅韓劇中,男主角從一本漫畫裡走出來,女主角也能在二次元和三次元之間隨意穿梭。

輝達新技術向我們展示了「腦洞大開」的韓劇也有實現的可能,用線條畫一個帥哥,然後一鍵轉換,真實的眉眼就出來了,就這麼神奇。

效果如下:給一張簡單線條組成的素描草圖,就能生成細節豐富的人臉,臉型、鼻子、眼睛、嘴巴等五官、髮型等都和草圖輪廓一致,最厲害的是生成人物還能流暢動作。

目前,我們能看到的圖像處理技術能做到的主要是背景分割、人臉區域分割,用來調整髮型、髮色、五官,像這樣根據草圖直接生成嶄新人臉,不免讓人訝異。

除了人物,輝達和 MIT 這項技術也可用於實景,合成長達 30 秒的 2K 解析度街景。

右邊是一幅動態語義地圖,左邊則和真實世界一樣。可以看到,兩邊場景的布局完全一樣,所以這並不是找相似的影像出來,而是依樣畫葫蘆全新生成的。

由於是電腦生成的,你可以修改影像元素,例如,將道路兩側全部變成樹木,或全部變成建築。

據了解,此計畫由輝達和 MIT 組成的團隊開發,包括輝達的 Ting-Chun Wang、劉明宇(Ming-Yu Liu),以及 MIT 的朱俊彥(Jun-Yan Zhu)等。

以上幾位研究員合著一篇名為「Video-to-Video Synthesis」的論文,論文摘要說,研究影像到影像的合成問題,目標是學習從輸入源影像(例如,一系列的語義分割掩碼)到輸出照片級影像的映射眼熟,輸出影像能精確描繪原影像內容。論文提出一種新型的生成對抗網路框架下的影像到影像合成方法。透過精心設計生成器和判別器架構,結合空間─時間對抗目標函數,在多種輸入影像格式下生成了高解析度、時間連貫的照片級影像,其中多種形式的輸入包括分割掩碼、草圖和姿態圖。

影像合成的 demo 很酷炫,可以想像,以後影視製作一些部分完全可以不用實景拍攝,畫個簡單幾筆然後合成真實影像就可以了。但很顯然,這個影像到影像的合成技術,比前面介紹 Adobe 用到的 AI 圖像處理技術還要難達成,目前還停在實驗室階段。

GPU 與 AI 圖像處理

圖靈架構的即時光線追蹤無疑最讓人驚歎,能計算光線反射、折射、散射,渲染出逼真的畫面,對遊戲、影視的畫面效果會帶來很大的提升。

此外,圖靈架構還有更多特性:

  • Tensor Core 可加速深度神經網路訓練和推理。
  • 圖靈流式多處理器(Turing Streaming Multiprocessor)架構擁有 4,608 個 CUDA core,可提供高達 16teraflops 的計算性能,並執行每秒 16 兆次整數運算,以加速模擬真實世界的物理模擬。
  • 先進的可編程著色技術可提高複雜視效和圖形密集型工作體驗。
  • 首次採用超快速的三星 16Gb GDDR6 內存,支援更複雜的設計、大量建築數據集、8K 電影內容等。
  • NVIDIA NVLink 可透過高速鏈路聯通兩個 GPU,將內存容量擴展至 96GB,並可透過高達 100GB/s 的數據傳輸提供更高性能。
  • 增強型技術可提高 VR 應用性能,包括可變速率著色(Variable Rate Shading)、多視角渲染(Multi-View Rendering)和 VRWorks Audio。

計算機圖形領域一直追逐更清晰的圖像顯示、更逼真的渲染、更快的處理速度,GPU 的性能提升不斷實現這些目標。如今,AI 與圖像處理的結合帶來更多可能性,這也是不少公司都在布局的方向。

今年 WWDC,蘋果重點介紹 Metal 和 ML 兩大技術。2014 年蘋果推出 Metal,能利用 GPU 獲得更高的圖形計算能力,使一些操作遊戲如《要塞英雄》在 iPhone 執行。透過支援 eGPU,Metal 使蘋果裝置獲得更逼真的 3D 渲染效果,還能幫助 Unity 達到即時光線渲染效果。

此外,Metal 另一大特色在於,支援機器學習,加速訓練神經網路這種計算密集型任務。因此基於 Metal 開發的機器學習工具 Core ML 也能利用 GPU,效率得到很大提升。

GPU 和 AI 技術的提升,無疑將對 VR 的發展有推動作用,期待更多酷炫的 AI 圖像處理技術誕生。

(本文由 雷鋒網 授權轉載;首圖來源:輝達

延伸閱讀:

關鍵字: , , , ,