OpenAI 近日推出能以文字轉成影片的全新模型 Sora,能夠產生具有多個角色、不同運鏡和背景細節的 60 秒高畫質影片,儘管 Sora 能夠創造逼真電影場景,但目前成果都是無聲電影。對此,另一新創公司 ElevenLabs 的技術可為 Sora 生成影片添加背景音效。
ElevenLabs 正在開發一款新產品,可以根據用戶提供的影片場景描述產生音訊,伴隨原本的無聲影片。
ElevenLabs 雖未透露生成音效的細節,但為展示技術實力,Elevenlabs 結合一些 Sora 影片實例展示 AI 生成的逼真音效,從繁忙街道上的腳步聲和城市中的嘈雜聲,彷彿能以好萊塢風格的宣傳音效呈現電影敘事,這些聲音是由提示文字產生音訊。
「我們使用提示文字如『海浪拍打』、『金屬撞擊』、『鳥鳴』、『賽車引擎聲』等產生音訊,並與我們喜歡的一些 Sora 生成影片剪輯在一起」,ElevenLabs 透過官方部落格文章表示。
We were blown away by the Sora announcement but felt it needed something…
What if you could describe a sound and generate it with AI? pic.twitter.com/HcUxQ7Wndg
— ElevenLabs (@elevenlabsio) February 18, 2024
▲ Elevenlabs 結合一些 Sora 影片實例展示 AI 生成的逼真音效。
Google 前機器學習工程師 Piotr Dabkowski 和 Palantir 前部署策略師 Mati Staniszewski 在 2022 年共同創立 ElevenLabs 這家新創公司,隨後推出以 AI 技術驅動的文字轉成語音軟體,以及能夠自動翻譯的 AI 配音工具,可將影片翻譯成 20 多種語言,並且保有原本談話的語氣和風格,現在更著手開發 AI 生成音效方面的應用。
值得觀察的是 ElevenLabs 生成音效的技術與 Sora 一樣,仍有一些問題有待解決,尤其有關防範詐騙和建立安全協議等。有鑑於 AI 發展腳步如此之快,OpenAI、ElevenLabs 以及整個產業將會找出具體解方。
(首圖來源:影片截圖)