缺少相對音訊的 VR 世界,無法創造真正的沉浸感

作者 | 發布日期 2016 年 03 月 23 日 9:54 | 分類 VR/AR , 穿戴式裝置 follow us in feedly
samsung Gear VR

2016 年 VR 熱仍在持續,但與去年不同的是,在經歷了頭戴裝置投資熱潮後,投資方向出現了多元化趨勢,關注點分散到產業鏈的不同環節。3 月份多家 VR 音訊創業公司都完成融資,之前相對較少關注的 VR 音訊開始嶄露頭角,成為投資的一個新風向標。



VR 音訊的價值究竟在哪兒?VR 影像製作公司、著名導演 David Marlett 的一句話或許能讓我們找到答案。他說,VR 影視作品和傳統影視的本質區別在於——大訊息量選擇性攝入。對於大腦而言,聽覺和視覺,一開始就是協同工作而非單獨分析,只有透過聲音的判斷,我們才能夠做出現實世界中的反應。VR 頭戴裝置廠商為了營造逼真沉浸感,挖空心思提升關鍵技術參數,比如刷新率、頭部追蹤延遲、視角、解析度等,但這些參數中,唯一缺少的就是音訊。

為什麼音訊對沉浸感有這麼重要的作用?我們來把美國哲學家希拉蕊·普特南曾提出的「桶中之腦」概念套用在 VR 中。如果想獲得完全的沉浸感,那麼你在 VR 世界中獲取資訊後做出的反應,就應該與現實世界中獲取資訊後的反應保持一致。比如:當一位美女在你左側拍手,你在現實中正常的反應就應該是向左側轉身,然後獲取拍手的人是美女這個資訊,即:聽到拍手聲(判斷行為依據)── 轉身(行為動作)──看見美女(資訊獲得)。可見,聲音在這裡發揮的作用是行為產生的最初始依據。這就是全景音訊對 VR 體驗的價值,它是引導使用者獲取資訊的「線索」。

VR 的一個重要問題就是資訊的選擇性攝入,在傳統顯示方式中所有的資訊都在使用者的面前,無法選擇。但 VR 不同,它提供了全景的觀看模式,有更豐富的畫面供選擇,但反而迷失了方向,不知道按照什麼順序觀看。所以,你會看到大部分人戴上頭盔後都是上下左右看一圈,然後就不知道看哪兒了,這種體驗只能帶來觀感的豐富性,但並無沉浸感可言。而有了 VR 音訊,就完全不同。我們透過聲音資訊,來指引使用者觀看的順序和邏輯,尤其是 VR 影視,導演需要引導關注點在不同的資訊點上移動。而大量無序的併發資訊,在沒有引導的情況下,最終就會把用戶搞得暈頭轉向,產生觀感混亂。

36kr 配圖

其實,這個問題,各大 VR 廠商早就心裡有數。Oculus Rift 集成了數位 HRTF(人頭相關函數)演算法,可以即時計算出遊戲世界中聲源的方位與距離資訊。在影視製作方面 Core Sound、Nokia、3Dio 也推出了解決 VR 音訊的技術方案。大名鼎鼎的森海塞爾也在 2015 年 CES 上宣布進入 VR 音訊行業。

目前主流的 VR 音訊採集方案,主要涉及到聲場還原技術和 HRTF 人頭傳遞函數:

聲場還原技術

這是一項十多年前就成熟的技術,最出名的應用就是 Sound Field Digital Surround Sound Microphone Systems,透過 4 個方向的麥克風採集的資訊分離開,類比出 5.1、7.1、10.1 甚至更多方向的聲道,然後經由家庭影院或電影院的音響系統重播還原。

HRTF(人頭傳遞函數)

人們聽到的聲音和空間中實際發出的聲音其實是不同的, 聲音在傳到鼓膜之前會受到頭部、頭部上各種結構以及材質的干擾,而些干擾可以被大腦察覺並成為空間判斷的依據,這就是為什麼人可以分辨聲音方向與距離的原因。HRTF 可以理解為這些干擾的統稱,它從實現方式上可以分為數位 HRTF 和自然 HRTF。Oculus Rift 和很多遊戲中採用的就是數位 HRTF,而自然 HRTF 是基於雙耳錄音(Binaural recording)的實現方式,但因為實現方式不能像數位 HRTF 那樣自由,所以主要應用在影視及音樂製作中。目前數字 HRTF 由於各種限制,還無法達到自然 HRTF 的真實效果。

目前,市面上能解決 VR 音訊的技術方案各有各的優勢,主要包括以下幾種實現方式:

一是,4 向採集──聲場還原──數位 HRTF 類比──全景重播,包括 SoundField Digital Surround Sound Microphone Systems、Core Sound TetraMic 等。這種解決方案的最大優點在於體積小方便攜帶,但缺點是方向資訊是透過類比產生,與實際聲場有很大區別,經由後期數位 HRTF 加工,來還原出音源方向。

二是,立體 8 向採集──聲場還原──數位 HRTF 類比──全景重播,目前只有 NOKIA、OZO 使用這種技術方式,主要採用數位 HRTF 方案。NOKIA 使用按照等邊多邊形方式擺放的 8 個聲音感測器來收集資料,然後透過聲場還原出 360 度各個方位的聲音資訊,再透過數位 HRTF 運算來加工為人可以感受的 VR 音訊。不足之處在於,將所有的聲場運算與 HRTF 運算全部在終端設備中完成,這個運算量對使用手機裝置做為終端的 VR 裝置來說,壓力巨大,且價格較高,約 6 萬美元。

三是,自然 HRTF 採集──聲場優化──全景重播,包括 3dio、Omnia(OculusVR 音訊技術合作商)在內的 VR 音訊採集設備。這種解決方案由雙耳錄音(Binaural recording)技術發展而來,採用自然 HRTF 而非數位 HRTF,在聲音的逼真度上較高,用戶可以清楚的辨認出方位和距離,對於要求較高的 VR 拍攝團隊或企業來說,性價比較高。目前,Oculus VR 與三星 Gear VR 的 Demo 影片就是採用這種方案製作的。這種方案的技術難點在於如何保持自然 HRTF 採集的模擬度,3Dio 採用簡化 Binaural 的方式,損失大量的臉部以及輪廓干擾,Omnia 保持了輪廓與臉部特徵,但由於所有特徵都擠在一個水平面上,所以各個方向上的特徵會互相干擾影響效果。而另一種技術則採用同軸 X Binaural 技術,採集 8 個方向的資訊,可以避免干擾,最大限度還原了人耳的聲音效果。

36kr 配圖

根據 Digi-Capital 的資料,VR 音訊市場預計在 2016 年將超過 7,000 萬美元,到 2020 年達到 5 億美元。對大眾來說,VR 領域中有太多的陌生概念需要理解,相比 VR 影像來說,音訊的關注度還相對較好。但我們發現,近期多家創業公司完成融資,進入發展快車道,這也顯示出資本市場的投資新方向,隨著人們對 VR 音訊重要性認知的逐步成熟,這個領域前景可期。

(作者:森聲科技創始人兼 CEO 張瑞博;本文由 36Kr 授權轉載;首圖來源:Flickr/Maurizio Pesce CC BY 2.0)

延伸閱讀:

關鍵字: , ,

發表迴響