亞馬遜推出語音模型 Nova Sonic，加入 AI 語音競賽

Nova 基礎模型添新成員──Nova Sonic，亞馬遜將語音辨識、理解及生成整合在單一模型，使 AI 能夠聽得懂、並且產生更像人們談話的語音對話。

亞馬遜指出，Nova Sonic 不太容易出現語音辨識錯誤的狀況，即使面對說話含糊不清或在吵雜環境說話，它也能準確理解說話者意圖。Nova Sonic 能夠判別人類對話的細微差異，包括說話者的自然停頓和猶豫、等待適當時機發言，還能優雅地插入對方談話。此外，Nova Sonic 還能產生文字轉錄，供開發者在不同應用情境使用。

相較競爭對手的語音模型，Nova Sonic 將客戶指令對應不同 API 的表現卓越，這種能力使 Nova Sonic 能夠判斷何時需要從網路獲取即時資訊、解析專有資料來源，或在外部應用程式執行時選用合適工具完成任務。

亞馬遜稱 Nova Sonic 是目前市場上成本效益最高的語音模型，成本約是 OpenAI GPT-4o 的 20% 左右。

亞馬遜資深副總裁暨首席科學家 Rohit Prasad 告訴外媒 TechCrunch，Nova Sonic 一部分已被應用在升級版 Alexa+ 當中，也是亞馬遜發展 AGI（Artificial General Intelligence，通用人工智慧）的策略之一。

Nova Sonic 透過 Amazon Bedrock 平台向客戶提供服務，並透過一個新的 API 對外開放，幫助客戶簡化語音應用程式的開發，例如用於客服或開發涵蓋旅遊、教育、醫療保健、娛樂等產業的 AI 代理。

Excited to introduce a new addition to the Amazon Nova family – Nova Sonic – a speech-to-speech model that makes it easier for developers to build voice-powered apps and AI agents that are more useful, natural, and engaging.

Gone are days that required developers to play… pic.twitter.com/bqp4VG17ak

— Rohit Prasad (@RohitPrasadAI) April 8, 2025