Speak 與 OpenAI 合作，結合 Realtime API 推出即時角色扮演功能

人工智慧語言學習平台 Speak 今日宣布與 OpenAI 合作，使用其全新 Realtime API 並與 Speak 的學習引擎結合，推出「即時角色扮演」新功能，提供多種場景中的沉浸式語言練習體驗。透過 GPT-4o 的 Realtime API， Speak 的 AI 家教的反應速度可與真人匹敵，甚至更快，並能理解和回通過饋超越純文本轉錄的語音特徵，例如語調、發音、語速等。語言學習和即時對話練習是語音轉語音技術（speech-to-speech ）的絕佳應用場景，Speak 亦將持續與 OpenAI 深度合作，將這項技術嵌入其核心體驗中。

Speak 團隊表示，Speak 的創立源自對未來的願景，透過 AI 賦能每個人，無論他們身處何處，都能接觸到最好的口語家教和對話夥伴，而我們對 Speak 所打造的對話式學習方法，在這次技術支援下變得更加沉浸，而感到無比驚艷。我們對這次全新的體驗、其背後的技術以及它對語言學習未來的意義充滿期待。

Speak 指出，大多數語言學習者無法流利使用外語，原因是他們嘗試各種方法，卻忽略大聲將語言說出來，並且極少有機會練習對話或找母語者交流。將近兩年前，Speak 推出 AI 驅動的角色扮演對話練習體驗，已成為最受歡迎功能之一，也是 Speak 從輔助口語練習工具轉變為真正的輔導體驗的第一步。

然而仍有許多限制，例如語音轉文字的處理、基於文本的大型語言模型（LLM）工作流程、再到合成到 AI 角色的語音，這一過程仍然笨拙且緩慢，導致對話感覺不夠流暢和自然，也讓每一步都延遲和錯誤。透過 GPT-4o 的 Realtime API 的直接語音轉語音能力，這些問題得到根本解決。

除了語音轉語音模型，Speak 亦專注模型產品化，並運用既有學習引擎，結合最佳技術、產品設計和教學方法，打造合適的用戶語言學習的體驗。在即時角色扮演功能的重要重特色包含：