OpenAI DevDay 發表四大功能,Realtime API 助開發者建立 AI 語音對話

作者 | 發布日期 2024 年 10 月 02 日 17:56 | 分類 AI 人工智慧 line share Linkedin share follow us in feedly line share
OpenAI DevDay 發表四大功能,Realtime API 助開發者建立 AI 語音對話


OpenAI 繼去年首次舉辦開發者大會,第二屆 OpenAI DevDay 第一場於舊金山揭開序幕,儘管比起去年低調些,仍帶來 4 大功能,試圖說服更多開發者運用 OpenAI 的模型和技術建立 AI 應用程式。

Realtime API

首先,OpenAI 新推出 GPT-4o 的 Realtime API 公開測試版,可選擇使用 OpenAI 提供的 6 種預設語音進行對話,類似於 ChatGPT 進階語音模式(Advanced Voice),但聲音不相同。這使開發者能在應用程式建立低延遲、多模態的體驗,而開發者不能使用第三方聲音,防止碰上聲音版權問題。

過去若要建立 AI 語音助理,開發者必須使用 Whisper 這類語音辨識模型先將語音提問轉錄成文字,把文字傳遞給模型進行推理,推理完成後使用文字轉語音(text to speech)模型輸出音訊,但這種做法容易失去重點、失去對話夾帶的情感和口音,而且回應上明顯較慢。現在 Realtime API 透過直接串流音訊輸入和輸出來改善痛點,達到更自然的語音對話。

Realtime API 使用文字 token 和音訊 token。文字方面的價格為每百萬個輸入 token 收費 5 美元,每百萬個輸出 token 收費 20 美元;至於音訊方面,每百萬個輸入 token 收費 100 美元,每百萬個輸出 token 收費 200 美元。

OpenAI 指出,率先採用 Realtime API 的開發商有營養和健身教練應用程式 Healthify,以及語言學習平台 Speak。前者使用 Realtime API,讓使用者能與 AI 教練 Ria 進行對話,後者以即時角色扮演新功能,提供多種場景的口說練習。

vision fine-tuning

OpenAI 在 GPT-4o 引進視覺微調(vision fine-tuning),開發者可用圖像和文字微調 GPT-4o,提升視覺功能。開發者能夠自訂模型,使其具有更強的圖像理解能力,強化視覺搜尋等功能,改進自駕車或智慧城市物件偵測,以及更準確的醫學圖像分析。

比方說,來自東南亞的叫車和外送平台 Grab 藉由這項功能,教 GPT-4o 正確定位交通標誌並計算車道分隔線,完善 Grab 服務的地圖資料。

Prompt Caching

開發者建立 AI 應用程式時,多次 API 呼叫可能重複使用相同的上下文。為此 OpenAI 新推出提示快取(Prompt Caching)功能,省下重複輸入的成本,開發者可節省多達 50% 費用,且有更快的提示處理時間。

OpenAI 的提示快取類似於競爭對手 Anthropic 幾個月前發表的功能,將自動應用在最新版本的 GPT-4o、GPT-4o mini、o1、o1-mini。

Model Distillation

OpenAI 還提出模型蒸餾(Model Distillation)功能,讓開發者可以使用較大的模型(如 GPT-4o 和 o1)微調成較小的模型(如 GPT-4o mini 等)。與運行較大的模型相比,運行較小的模型通常可滿足成本效益,這項功能可讓開發者提高小型模型的性能。

有興趣的讀者除前往 OpenAI 官網閱讀更詳細的技術說明外,據傳 OpenAI 計劃稍晚在自家 YouTube 頻道上傳主題演講影片,這次執行長奧特曼(Sam Altman)並非主題演講主角,而是由 OpenAI 產品團隊負責內容。此外,OpenAI 產品長 Kevin Weil 向參與 OpenAI DevDay 的外媒強調,技術長 Mira Murati 和研究長 Bob McGrew 等離職,沒有影響 OpenAI 研究和產品進展。

▲ 奧特曼透過 X 分享 OpenAI 成績和進展。

(首圖來源:OpenAI

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》