iPhone 11 Pro 一秒生成全像 3D 圖!MIT 如何做到?

作者 | 發布日期 2021 年 03 月 21 日 0:00 | 分類 尖端科技 , 科技趣聞 Telegram share ! follow us in feedly


幾個月前,顯示螢幕霸主三星聯合首爾大學,設計出超薄互動式全像顯示螢幕。只要按方向鍵,螢幕裡的海龜立即就朝特定方向游過去。

 

三星表示,這款螢幕可多角度提供高解析度、真實度極高的 3D 影片,有朝一日還會整合至手機。而 Sony 資助下,MIT 研究人員宣稱已用手機生成全像 3D 圖。想對圖片任意物體對焦,只需短短幾毫秒。

(Source:影片截圖)

3 月 10 日,相關研究成果發表於《Nature》,題為「Towards real-time photorealistic 3D holography with deep neural networks」(利用深度神經網路實現逼真的即時 3D 全像投影)。

何謂「全像投影」?

首先來了解一下全像投影。全像投影是 3D 技術,英文名稱為 Holographic Projection,holo 源於希臘語,意為「完全訊息」。

「完全訊息」要傳遞,需要兩步驟:

1. 拍攝:利用干涉原理(即兩列或以上波在空間重疊時發生疊加,形成新波形),將被攝物體在雷射輻照下形成的物光束和射到全像投影底片上的雷射參考光束疊加,產生干涉並記錄。經過一定處理後得到全像投影照。

2. 成像:利用繞射原理(即波遇到障礙物時會偏離原來的直線傳播),利用相干雷射光照射全像投影圖,一張線性記錄的正弦型全像投影圖繞射光波可得出兩個成像,圖像立體感增強,也有真實視覺效果。

可簡單理解:全像投影圖每個畫素散射光波,相互作用,就能產生深度錯覺,呈現出立體感。基於此,全像投影又稱虛擬成像。正如 IEEE Spectrum 所說:

全像投影圖本質上就像觀察 3D 場景的 2D 視窗。

人們觀看 3D  全像投影圖時不會覺得眼睛疲勞,這與傳統 3D 顯示(使用 2D 圖像產生深度錯覺)不同。

彩色 3D全像投影圖即時生成

即便三星設計出全像投影顯示螢幕,硬體有了重要突破,但不可否認,要在電子設備顯示全像投影數據仍是重大挑戰。

IEEE Spectrum 表示,每個全像投影圖都意味著大量數據,只有這樣才能打造出深度錯覺。因此生成全像影片需要一台超算力電腦。以前有團隊嘗試解決,希望減少計算量,例如用簡單查找表取代複雜的物理模擬──然而往往以犧牲畫質為代價。

MIT 的思路則是設計卷積神經網路。

他們打造基於深度學習的 CGH(computer-generated holography,電腦生成全像投影術,可模擬繞射和干涉數值,達成高空間角度解析度的 3D 投影)通道,能從單一 RGB 三色通道變化及相互疊加得到各樣顏色,深度圖像即時合成逼真的彩色 3D 全像投影圖。

研究團隊使用一系列可訓練張量模擬人類處理視覺訊息的過程,建立含 4,000 對(每對都是一張 RGB 深度照片及對應 3D 全像投影圖,如下圖所示)電腦生成圖像的資料庫。

團隊做到短短幾毫秒內創建出無斑點、自然、高解析度的 3D 全像投影圖。卷積神經網路的記憶體不到 620KB,能保證單消費級圖形處理單元平均每秒生成 60 幅解析度 1,920×1,080 的全像投影圖。

利用低功耗人工智慧加速晶片,卷積神經網路能在行動設備(iPhone 11 Pro 每秒生成 1.1 張全像投影圖)和邊緣設備(Gpp edge TPU 每秒生成 2 張全像投影圖)交互運行。

MIT 的方法究竟有何重要意義,可從下面比喻理解:

電腦生成全像投影圖的過程就像切蛋糕。

使用查找表生成全像投影圖,就像切蛋糕前標記每塊蛋糕的邊界。使用物理模擬計算空間每個點的外觀,類似 8 次精確切出 8 塊蛋糕。儘管省去計算切割位置的步驟可節省時間,但依然是耗時工程。MIT 利用深度學習,實現 3 次精確切割就將蛋糕切成 8 塊。

未來,研究團隊或許還將增加眼動追蹤技術加快系統運行速度,這項成果後續也將在 VR、AR 耳機等領域應用。

論文來自 MIT 電腦科學與人工智慧實驗室(CSAIL)& 電子工程與電腦科學系,通訊作者為 Liang Shi 和 Wojciech Matusik。

Wojciech Matusik 為 MIT CSAIL & 電子工程與電腦科學系教授。

Wojciech Matusik 教授主要研究領域為電腦圖形學、計算設計和製造。他於 1997 年獲加州大學柏克萊分校 EECS(電子工程與電腦科學)學士學位,於 2001 年獲 MIT EECS 碩士學位,於 2013 年獲 MIT 電腦圖形學博士學位。

Wojciech Matusik 教授表示:

這是巨大的躍進,可完全改變人們對全像投影的態度。我們覺得神經網路就是為此而生。

另一作者為 Liang Shi(史亮),由 Wojciech Matusik 教授指導的在讀博士生,2014 年於北京航空航天大學獲得光電子工程學士學位,2016 年於史丹佛大學獲得電子工程碩士學位,主要研究領域包括 VR / AR、計算攝影/顯示/製作、機器學習和電腦圖形學。

(本文由 雷鋒網 授權轉載;首圖來源:Flickr/Vu Hoang CC BY 2.0)

延伸閱讀: