
Nova 基礎模型添新成員──Nova Sonic,亞馬遜將語音辨識、理解及生成整合在單一模型,使 AI 能夠聽得懂、並且產生更像人們談話的語音對話。
亞馬遜指出,Nova Sonic 不太容易出現語音辨識錯誤的狀況,即使面對說話含糊不清或在吵雜環境說話,它也能準確理解說話者意圖。Nova Sonic 能夠判別人類對話的細微差異,包括說話者的自然停頓和猶豫、等待適當時機發言,還能優雅地插入對方談話。此外,Nova Sonic 還能產生文字轉錄,供開發者在不同應用情境使用。
相較競爭對手的語音模型,Nova Sonic 將客戶指令對應不同 API 的表現卓越,這種能力使 Nova Sonic 能夠判斷何時需要從網路獲取即時資訊、解析專有資料來源,或在外部應用程式執行時選用合適工具完成任務。
亞馬遜稱 Nova Sonic 是目前市場上成本效益最高的語音模型,成本約是 OpenAI GPT-4o 的 20% 左右。
亞馬遜資深副總裁暨首席科學家 Rohit Prasad 告訴外媒 TechCrunch,Nova Sonic 一部分已被應用在升級版 Alexa+ 當中,也是亞馬遜發展 AGI(Artificial General Intelligence,通用人工智慧)的策略之一。
Nova Sonic 透過 Amazon Bedrock 平台向客戶提供服務,並透過一個新的 API 對外開放,幫助客戶簡化語音應用程式的開發,例如用於客服或開發涵蓋旅遊、教育、醫療保健、娛樂等產業的 AI 代理。
Excited to introduce a new addition to the Amazon Nova family – Nova Sonic – a speech-to-speech model that makes it easier for developers to build voice-powered apps and AI agents that are more useful, natural, and engaging.
Gone are days that required developers to play… pic.twitter.com/bqp4VG17ak
— Rohit Prasad (@RohitPrasadAI) April 8, 2025
▲ 語音模型 Nova Sonic。
另在影像生成方面,亞馬遜釋出 Nova Reel 1.1 版本,比起 1.0 版本改進影像品質和延遲等問題。新版可將多個 6 秒短影片剪輯在一起,進一步生成長達 2 分鐘的多鏡頭影片,各個鏡頭保持一致風格。
▲ 影像生成模型 Nova Reel 釋出 1.1 版本。
像是 ChatGPT 進階語音模式背後的模型,比起 Alexa、Siri 的對話表現更為自然,更能理解人們談話,這讓亞馬遜、蘋果不得不急起直追,前者將以 Nova Sonic 以及逐步開放的 Alexa+ 來服務客戶。
- Amazon unveils a new AI voice model, Nova Sonic
- Amazon says its AI video model can now generate minutes-long clips
- Move over, Alexa: Amazon launches new realtime voice model Nova Sonic for third-party enterprise development
(首圖來源:pixabay)