了解 Magic Leap 的技術背景,就了解熱門有其道理

作者 | 發布日期 2015 年 11 月 03 日 8:43 | 分類 Microsoft , VR/AR , 穿戴式裝置 follow us in feedly

Magic Leap 因為阿里巴巴投資的傳聞和一週前的概念影片在近期可謂引火上身,短短幾天時間內,從概念影片經網路到社群網路,成了當紅炸子雞。要知道,Magic Leap 在 2014 年 10 月獲得了來自 Google、高通、傳奇娛樂、Thomas Tull、KKR、Vulcan Capital、Kleiner Perkins Caufield & Byers、Andreessen Horowitz 和 Obvious Ventures 等機構和投資人共計 5.42 億美元的 B 輪投資,融資完成後,Google Android 及 Chrome 前團隊負責人、現 Google 公司 CEO Sundar Pichai 加入 Magic Leap 的董事會。




的確,不像近期熱門的微軟 HoloLens,Magic Leap 做為下一代內容呈現和互動平台混合現實(Mixed Reality)領域的競爭者,至今並沒有實機 demo 展示,僅有出自官方 YouTube 帳號的兩段影片,但這並不妨礙我們從這家公司近年來申請的專利和引進的專家來分析他們的技術方向。

 

光學呈像

目前為止,無論是虛擬實境(VR)應用還是擴增實境(AR)應用,圖像本身的路徑基本上都經歷這樣的過程:光 – 鏡頭 – 傳感器 – 數字化 CV 算法 – LCD / LED 顯示器,最終我們看到的 AR / VR 內容,都是透過 LCD / LED 顯示器傳入人眼。而 LCD / LED 本身在耗電、重量、體積等方面存在缺陷,是 AR / VR 用戶體驗發展的主要瓶頸之一。

而 Magic Leap 擁有一種名為 Fiber Optic Projector 的核心技術,這種 「投影儀」 與傳統意義上的投影相比,尺寸更小,功耗更低,可以透過一根直徑 1 毫米、長 9 毫米的光纖投出幾英吋彩色圖像。

談及 Fiber Optic Projector 的原理,我們就要從已經加盟了 Magic Leap 的華盛頓大學 Eric Seibel 教授說起。Prof. Eric Seibel 致力於研究內視鏡已有數十載,他的研究團隊曾在 2013 年公開展示一種直徑 1 毫米、基於光纖掃瞄的內視鏡。相比原來動輒幾釐米直徑的內視鏡而言,這是一種變革性的進步。它的原理簡單來說就如下圖——內視鏡由基於 MEMS 的驅動器 Actuator、單光纖、鏡頭組、直徑 1 毫米的套管組成。當內視鏡工作時,微電腦經由控制多個驅動器,精確控制光纖末端的掃瞄路徑,透過畫直徑由小變大的同心圓來完成整個畫面的圖像掃瞄,再將數據回傳給電腦合成圖像。

Magic Leap_36kr110202

Magic Leap 的 Fiber Optic Projector 和這個內視鏡工作原理類似,只是光纖末端並不是用來採集圖像,而是發出顯示圖像的光線,透過驅動器能快速的掃瞄,讓鏡頭末端得以逐個投出圖像。這個原理聽起來簡單,要在工程上實現是非常了不起的。

Magic Leap_36kr110203

上面我們提到過,這種基於光纖掃瞄的顯示裝置有功耗低、重量輕、體積小等優點,而且可以透過多個光纖末端陣列堆疊的方式來實現 FOV(Field of View)顯示。

Magic Leap_36kr110204

而對於這種光纖掃瞄投影儀的畫質,想必大家也不必過於擔心。透過 Google Patent 的檢索,我們發現這家公司已經在為美國國防部研製分辨率達到 4K 級別的光纖掃瞄顯示裝置。

 

CG 和 CV

說完光學呈像原理,我們再來說說 Magic Leap 在電腦視覺技術(Computer Vision,以下簡稱 CV)方面的成就。

Magic Leap_36kr110205

Magic Leap_36kr110206

Magic Leap_36kr110207

上圖來自 Magic Leap 近期的宣傳影片,這些都是 CG 特效,並且 Magic Leap 自己也承認影片裡的都是特效。這樣用於表達 idea 的概念影片在矽谷公司裡很常見,並不值得指摘。

Magic Leap_36kr110208

Magic Leap_36kr110209

接下來,我們重點針對上圖裡的這兩組進行分析。一如 HoloLens 在去年 10 月首次亮相展示的宣傳影片,縱然 Magic Leap 在影片裡明確標註了「No special effets or compositing」,很多人還是傾向對它們持懷疑態度。

不過,要真正在技術和學術上討論 Magic Leap 在 CV 和 CG 技術領域展現的成果和遠景,就需要建立兩個假設:第一,影片是在 Magic Leap 裝置上使用他們的原創技術生成的,意即他們沒有說謊;第二,影片是透過他們的裝置即時採集、處理並展示的,即從外界感知環境數據到獲得 AR 效果圖像的整體時間在 33ms~67ms 這個時間範圍內。

第一張圖中,躲在桌下的小機器人被發現後,驚慌失措向攝影機打了個招呼。過程中攝影機持續在移動,中間桌子對小機器人發生了部份遮擋。在這個場景裡:

  • 首先是三維訊息感知:電腦必須透過傳感器感知三維環境訊息,這個傳感器可以是普通 RGB 鏡頭,也可以是 TOF 或結構光深度鏡頭,但是選擇不同的鏡頭也決定了接下來算法的複雜程度。
  • 第二步是三維場景重構,這也是最重要的一步,需要透過所獲得的環境訊息,即時對場景進行三維重構。這裡就用到了大家最近在 AR 領域反覆提及的 SLAM 算法,該算法在即時構建三維場景的同時,能夠準確地定位拍攝相機(或拍攝者)的位置。有了三維環境和位置這兩個資訊,接下來的圖形渲染工作才能進行。目前對於 RGBD 來構造三維場景的 SLAM 算法相對比較多,最著名的當屬微軟英國劍橋研究院和帝國理工 Andrew Davison 教授(接下來會多次提到這位教授的名字)共同開發的 KinectFusion;如果用 RGB 鏡頭的話,也 有 LSD Semi-dense SLAM 和 DTAM 等算法來獲得相對豐富的三維場景點雲端資訊。
Magic Leap_36kr110210

▲ Kinect Fusion 重構效果。

Magic Leap_36kr110211

▲ LSD Semi-dense SLAM 重構效果。

Magic Leap_36kr110212

▲ DTAM 重構效果。

其中 DTAM 也是剛才提到過那位 Andrew Davison 教授的重要研究工作。

  • 第三步,三維場景辨識:當我們透過第二步獲得了豐富的三維場景訊息後,接下來需要讓電腦理解三維場景,即讓電腦認知什麼是地板,什麼是天花板、什麼是桌子,是一張什麼桌子,桌子的材質是什麼?目前在研究領域,3D 場景與物體的辨識才屬於起步階段,受到數據集和採集方式,目前並沒有顯著的突破。因此 在 Magic Leap 放出的 demo 影片裡,他們巧妙地只使用了桌子,一些可以有效辨識的物體。這方面的研究工作,領先者又是那位 Andrew Davison 教授,他領導的實驗室在 CVPR2013 會議上提出的 SLAM++ 算法,可以透過 RGBD 鏡頭進行 SLAM 的同時,進行即時物體辨識,並完成物體的物理建模。
Magic Leap_36kr110213

▲ SALM++ 的三維重構和辨識效果。

  • 第四步,物理建模與仿真:在辨識出三維物體之後,虛擬物件(小機器人)需要和物件互動(例如:碰撞),則需要對三維物體的材質進行辨識。由於 demo 中展示的是剛體碰撞效果,仿真上相對容易。那我們推廣一下,如果是即時的流體材質仿真,就需要提到 CG 研究領域 的 physically based rendering。該技術透過建立物體的物理數學模型,在電腦中模仿互動中物體的物理變化。如果有一天 Magic Leap 真要實現概念影片中鯨魚的效果,大量的水滴濺射效果在行動裝置上的即時計算模仿也會是很大的工程門檻。
  • 第五步,即時 CG 圖像渲染:在完成了所有呈現效果的仿真計算之後,便是將 AR 效果即時渲染出來,進而投射在顯示裝置上。這是個相對成熟的工程問題,也有很多工程師可以回答這個問題,這裡不再贅述。
Magic Leap_36kr110214

第二個 demo 展示更多的是 CG 圖像的視覺效果和解析度,而 AR 的特性透過現有很多 AR 開源包都能夠實現,更多是硬體工程上的工作,不屬於這個章節的討論範疇。

透過上面這五步,我們可以得到一個流水線程序。從電腦工程上來說,這個流水線覆蓋了傳感器訊號處理、三維重構、三維物體辨識、電腦圖形學 4 個領域。在 Magic Leap 所展示出來的 demo 中都體現了現在電腦科學領域的最新研究成果,而它所體現出來的流暢性和繼承性,也代表了目前電腦工程領域的最高工業水平。做為電腦科學的研究人員和電腦工程的從業人員,我都願意為這些進步拍手按讚。當然,這一切都建立在本章開頭的兩個假設上。

雖然近期中國技術型創業公司環境顯得浮躁,但懷疑 Magic Leap B 輪資方中任意一方的 DD (盡職調查)能力都不算明智,希望這篇文章能做為一個引子,大家重新冷靜考慮中國內外技術的差距和相對優勢。

另外,我願意相信現在 Magic Leap 裝置的尺寸非常大,稍稍分析一下上面這些算法的計算量,就至少需要兩台配備頂級 GPU 的頂配台式機。即時 Magic Leap 自己開發了全套 FPGA (短時間內 SoC 的可能性不大)實現,其發熱量和功耗也暫時無法支撐它成為一款便攜裝置。但任何一項技術在理論上得到突破後都需要漫長的工程等待,何況高通參投了 Magic Leap。

 

HoloLens?

至於 HoloLens,微軟現階段還沒有什麼擔心的餘地,目前 Magic Leap 的核心技術微軟幾乎都有,Andrew Davison 幾乎所有重要論文都是和微軟劍橋研究院合作的,本來相對偏弱的 CG 技術也透過收購 Intel 手中的 Havok 得到補強。加上強大的開發者社群,未來市場裡一定少不了微軟的位置。

(本文由 36Kr 授權轉載) 

發表迴響