15 秒聲音就能合成不同語言人聲,OpenAI 公開語音引擎預覽版

作者 | 發布日期 2024 年 03 月 30 日 14:35 | 分類 AI 人工智慧 line share follow us in feedly line share
15 秒聲音就能合成不同語言人聲,OpenAI 公開語音引擎預覽版


OpenAI 語音引擎(Voice Engine)及其採用 AI 模型悄悄出現在用戶眼前已有一段時間,現在該公司正式對外公開。

OpenAI 語音引擎預覽版 29 日首度亮相,這項功能是現有文字轉語音 API 的延伸,背後採用模型也支援 ChatGPT 語音對話和「朗讀」。語音引擎經過大約 2 年開發,將允許用戶上傳 15 秒語音樣本,將這些語音資料合成更多版本,目前提供少數公司進行測試。

「我們會擷取一段簡短的音訊和文字,產生與原說話者相符的逼真語音」,OpenAI 產品開發成員 Jeff Harris 告訴國外媒體 TechCrunch,模型同時分析從中擷取的語音資料和要朗讀的文字資料,可產生情感豐富且自然真實聲音,與原始說話者非常相似。「處理完成後,所使用的音訊會被刪除」。

在 OpenAI 部落格文章的範例中,一名英語用戶的聲音被翻譯成西班牙語、華話、德語、法語以及日語,同時保留原說話者的口音,Jeff Harris 稱 OpenAI 方法可提供更高品質語音。

事實上,這不是全新技術,許多公司一直有可合成語音的產品,從新創 ElevenLabs 再到大型公司亞馬遜、Google、微軟等都有。不過談到語音引擎背後的訓練資料從何而來,Jeff Harris 僅表示根據授權資料和公開資料組合訓練而成。

包括 OpenAI 語音引擎在內 AI 工具能夠合成不同語音,未來可能會對配音員、影音內容製作等領域帶來許多影響,消費大眾更擔心這樣的工具被不法分子用於詐騙、散播不實資訊。

語音引擎功能雖強大,但目前無法調整語音的口音、音調或說話速度。OpenAI 也未公布推出時程,可讓該公司有更多時間測試,防止功能遭到不法濫用。

(首圖來源:pixabay

延伸閱讀: