OpenAI DevDay 發表四大功能，Realtime API 助開發者建立 AI 語音對話

OpenAI 繼去年首次舉辦開發者大會，第二屆 OpenAI DevDay 第一場於舊金山揭開序幕，儘管比起去年低調些，仍帶來 4 大功能，試圖說服更多開發者運用 OpenAI 的模型和技術建立 AI 應用程式。

Realtime API

首先，OpenAI 新推出 GPT-4o 的 Realtime API 公開測試版，可選擇使用 OpenAI 提供的 6 種預設語音進行對話，類似於 ChatGPT 進階語音模式（Advanced Voice Mode），但聲音不相同。這使開發者能在應用程式建立低延遲、多模態的體驗，而開發者不能使用第三方聲音，防止碰上聲音版權問題。

過去若要建立 AI 語音助理，開發者必須使用 Whisper 這類語音辨識模型先將語音提問轉錄成文字，把文字傳遞給模型進行推理，推理完成後使用文字轉語音（text to speech）模型輸出音訊，但這種做法容易失去重點、失去對話夾帶的情感和口音，而且回應上明顯較慢。現在 Realtime API 透過直接串流音訊輸入和輸出來改善痛點，達到更自然的語音對話。

Realtime API 使用文字 token 和音訊 token。文字方面的價格為每百萬個輸入 token 收費 5 美元，每百萬個輸出 token 收費 20 美元；至於音訊方面，每百萬個輸入 token 收費 100 美元，每百萬個輸出 token 收費 200 美元。

OpenAI 指出，率先採用 Realtime API 的開發商有營養和健身教練應用程式 Healthify，以及語言學習平台 Speak。前者使用 Realtime API，讓使用者能與 AI 教練 Ria 進行對話，後者以即時角色扮演新功能，提供多種場景的口說練習。

vision fine-tuning

OpenAI 在 GPT-4o 引進視覺微調（vision fine-tuning），開發者可用圖像和文字微調 GPT-4o，提升視覺功能。開發者能夠自訂模型，使其具有更強的圖像理解能力，強化視覺搜尋等功能，改進自駕車或智慧城市物件偵測，以及更準確的醫學圖像分析。

比方說，來自東南亞的叫車和外送平台 Grab 藉由這項功能，教 GPT-4o 正確定位交通標誌並計算車道分隔線，完善 Grab 服務的地圖資料。

Prompt Caching

開發者建立 AI 應用程式時，多次 API 呼叫可能重複使用相同的上下文。為此 OpenAI 新推出提示快取（Prompt Caching）功能，省下重複輸入的成本，開發者可節省多達 50% 費用，且有更快的提示處理時間。

OpenAI 的提示快取類似於競爭對手 Anthropic 幾個月前發表的功能，將自動應用在最新版本的 GPT-4o、GPT-4o mini、o1、o1-mini。

Model Distillation

OpenAI 還提出模型蒸餾（Model Distillation）功能，讓開發者可以使用較大的模型（如 GPT-4o 和 o1）微調成較小的模型（如 GPT-4o mini 等）。與運行較大的模型相比，運行較小的模型通常可滿足成本效益，這項功能可讓開發者提高小型模型的性能。

有興趣的讀者除前往 OpenAI 官網閱讀更詳細的技術說明外，據傳 OpenAI 計劃稍晚在自家 YouTube 頻道上傳主題演講影片，這次執行長奧特曼（Sam Altman）並非主題演講主角，而是由 OpenAI 產品團隊負責內容。此外，OpenAI 產品長 Kevin Weil 向參與 OpenAI DevDay 的外媒強調，技術長 Mira Murati 和研究長 Bob McGrew 等離職，沒有影響 OpenAI 研究和產品進展。

shipping a few new tools for developers today!

from last devday to this one:

*98% decrease in cost per token from GPT-4 to 4o mini
*50x increase in token volume across our systems
*excellent model intelligence progress
*(and a little bit of drama along the way)

— Sam Altman (@sama) October 1, 2024