人工智慧語言學習平台 Speak 今日宣布與 OpenAI 合作,使用其全新 Realtime API 並與 Speak 的學習引擎結合,推出「即時角色扮演」新功能,提供多種場景中的沉浸式語言練習體驗。透過 GPT-4o 的 Realtime API, Speak 的 AI 家教的反應速度可與真人匹敵,甚至更快,並能理解和回通過饋超越純文本轉錄的語音特徵,例如語調、發音、語速等。語言學習和即時對話練習是語音轉語音技術(speech-to-speech )的絕佳應用場景,Speak 亦將持續與 OpenAI 深度合作,將這項技術嵌入其核心體驗中。
Speak 團隊表示,Speak 的創立源自對未來的願景,透過 AI 賦能每個人,無論他們身處何處,都能接觸到最好的口語家教和對話夥伴,而我們對 Speak 所打造的對話式學習方法,在這次技術支援下變得更加沉浸,而感到無比驚艷。我們對這次全新的體驗、其背後的技術以及它對語言學習未來的意義充滿期待。
Speak 指出,大多數語言學習者無法流利使用外語,原因是他們嘗試各種方法,卻忽略大聲將語言說出來,並且極少有機會練習對話或找母語者交流。將近兩年前,Speak 推出 AI 驅動的角色扮演對話練習體驗,已成為最受歡迎功能之一,也是 Speak 從輔助口語練習工具轉變為真正的輔導體驗的第一步。
然而仍有許多限制,例如語音轉文字的處理、基於文本的大型語言模型(LLM)工作流程、再到合成到 AI 角色的語音,這一過程仍然笨拙且緩慢,導致對話感覺不夠流暢和自然,也讓每一步都延遲和錯誤。透過 GPT-4o 的 Realtime API 的直接語音轉語音能力,這些問題得到根本解決。
除了語音轉語音模型,Speak 亦專注模型產品化,並運用既有學習引擎,結合最佳技術、產品設計和教學方法,打造合適的用戶語言學習的體驗。在即時角色扮演功能的重要重特色包含:
- 當用戶用 App 對話時,Speak 將運用熟練度圖表(proficiency graph)系統來追蹤他們的語言知識狀態,確保對話符合用戶的口說水準,並使用最合適的句型和詞彙。
- 為用戶提供具體的學習目標,協助他們在角色扮演中有效練習並達成任務。
- 當用戶卡住時,我們會提供適當的提示,以幫助他們繼續對話。
透過獨有的學習引擎支持,並隨著即時對話動態更新,角色扮演的對話將能變得更加沉浸、自然且有助於提升流利度。
(首圖來源:Speak)