去年初微軟推出 VALL-E 文字轉語音(TTS)生成器時,便展現了只要聽取說話者 3 秒鐘的聲音、便能以原說話說者一模一樣的聲音說出任何講話內容的能力。如今微軟推出 VALL-E 2 生成器,能夠更進一步生成和真人說話時一樣準確、自然又流暢的語音。由於生成的語音太過逼真,微軟擔心會有被惡意濫用的可能風險,所以決定不對外公開。 繼續閱讀..
VALL-E 2 成為首個達到人類水準的 TTS,基於風險微軟不打算公開發表 |
作者 Evan|發布日期 2024 年 07 月 15 日 8:00 | 分類 AI 人工智慧 , Microsoft |