只看手勢動作,AI 就能完美重現音樂

作者 | 發布日期 2020 年 07 月 28 日 8:30 | 分類 AI 人工智慧 , 數位音樂 , 科技趣聞 line share follow us in feedly line share
只看手勢動作,AI 就能完美重現音樂


會玩樂器的人在生活中簡直自帶光環!不過,學會一門樂器也真的很難,多少人陷入過從入門到放棄的死循環。但是,不會玩樂器,就真的不能演奏出好聽的音樂了嗎?

最近,麻省理工學院(MIT)聯合 MIT-IBM Watson 人工智慧(AI)實驗室(MIT-IBM Watson AI Lab)共同開發出了一款 AI 模型 Foley Music,它可以根據演奏手勢完美還原樂曲原聲!而且還是不分樂器的那種,小提琴、鋼琴、烏克麗麗、吉他,統統都可以。

只要拿起樂器,就是一場專業演奏會!如果喜歡不同音調,還可以對音樂風格進行編輯,A 調、F 調、G 調均可。

這項名為《Foley Music:Learning to Generate Music from Videos》的技術論文已被 ECCV 2020 收錄。

接下來,我們看看 AI 模型是如何還原音樂的?

會玩多種樂器的 Foley Music

如同為一段舞蹈配樂需要了解肢體動作、舞蹈風格一樣,為樂器演奏者配樂,同樣需要知道其手勢、動作以及所用樂器。

如果給定一段演奏影片,AI 會自動鎖定目標對象的身體關鍵點(Body Keypoints),以及演奏的樂器和聲音。

(Source:論文,以下同)

身體關鍵點:由 AI 系統中的視覺感知模組(Visual Perception Model)來完成。它會透過身體姿勢和手勢的兩項指標來反饋。一般身體會提取 25 個關鍵 2D 點、手指 21 個 2D 點。

樂器聲音提取:採用音頻表徵模組(Audio Representation Model),該模組研究人員提出了一種音樂數位介面(Musical Instrument Digital Interface,簡稱 MIDI)的音頻表徵形式。它是 Foley Music 區別於其他模型的關鍵。

研究人員介紹,對於一個 6 秒中的演奏影片,通常會生成大約 500 個 MIDI 事件,這些 MIDI 事件可以輕鬆導入到標準音樂合成器以生成音樂波形。

在完成資訊提取和處理後,接下來,視-聽模組(Visual-Audio Model)將整合所有資訊並轉化,生成最終相匹配的音樂。

我們先來看一下它的完整架構圖:主要由視覺編碼、MIDI 解碼和 MIDI 波形圖輸出 3 個部分構成。

視覺編碼:將視覺資訊進行編碼化處理,並傳遞給轉換器 MIDI 解碼器。從影片幀中提取關鍵坐標點,使用 GCN(Graph-CNN)捕獲人體動態隨時間變化產生的潛在表示。

MIDI 解碼器:透過 Graph-Transfomers 完成人體姿態特徵和 MIDI 事件之間的相關性進行建模。Transfomers 是基於編解碼器的自回歸生成模型,主要用於機器翻譯。在這裡,它可以根據人體特徵準確預測 MIDI 事件的序列。

MIDI 輸出:使用標準音頻合成器將 MIDI 事件轉換為最終的波形。

實驗結果

研究人員證實 Foley Music 遠優於現有其他模型。在對比試驗中,他們採用了 3 種數據集對 Foley Music 進行了訓練,並選擇了 9 種樂器,與其他 GAN-based、SampleRNN 和 WaveNet 3 種模型進行對比評估。

其中,數據集分別為 AtinPiano、MUSIC 及 URMP,涵蓋了超過 11 個類別的大約 1,000 個高品質的音樂演奏影片。樂器則為風琴、貝斯、低音管、大提琴、吉他、鋼琴、低音號、烏克麗麗和小提琴,其影片長度均為 6 秒。以下為定量評估結果:

可見,Foley Music 模型在貝斯(Bass)樂器演奏的預測性能最高達到 72%,而其他模型最高僅為 8%。

另外,從以下 4 個指標來看,結果更為突出:

  • 正確性:生成的歌曲與影片內容之間的相關性。
  • 噪音:音樂噪音最小。
  • 同步性:歌曲在時間上與影片內容最一致。

黃色為 Foley Music 模型,它在各項指標上的性能表現遠遠超過其他模型,在正確性、噪音和同步性三項指標上最高均超過了 0.6,其他最高不足 0.4,且 9 種樂器均是如此。

另外,研究人員還發現,與其他基準系統相比,MIDI 事件有助於改善聲音品質、語義對齊和時間同步。

說明

  • GAN 模型:它以人體特徵為輸入,透過鑑別其判定其姿態特徵所產生的頻譜圖是真或是假,經過反覆訓練後,透過傅立葉逆變換將頻譜圖轉換為音頻波形。
  • SampleRNN:是無條件的端到端神經音頻生成模型,它相較於 WaveNet 結構更簡單,在樣本級層面生成語音要更快。
  • WaveNet:是 Google Deepmind 推出的一款語音生成模型,在 text-to-speech 和語音生成方面表現很好。

另外,該模型的優勢還在於它的可擴展性。MIDI 表示是完全可解釋和透明的,因此可以對預測的 MIDI 序列進行編輯,以生成 A、G、F 調不同風格音樂。如果使用波形或者頻譜圖做為音頻表示形式的模型,這個功能是不可實現的。

最後研究人員在論文中表明,此項研究透過人體關鍵點和 MIDI 表示很好地建立視覺和音樂信號之間的相關性,實現了音樂風格的可拓展性。為當前研究影片和音樂聯繫拓展出一種更好的研究路徑。

(本文由 雷鋒網 授權轉載;首圖來源:pixabay

延伸閱讀: