開口問也可以!OpenAI 讓 ChatGPT 接受語音輸入、圖片上傳提示

作者 | 發布日期 2023 年 09 月 26 日 17:59 | 分類 AI 人工智慧 line share follow us in feedly line share
開口問也可以!OpenAI 讓 ChatGPT 接受語音輸入、圖片上傳提示


AI 聊天機器人 ChatGPT 推出近 1 年,正在學習以新的方式理解你的提問,未來不只透過文字提示,甚至可以語音輸入和圖片上傳 2 種新方式來提供提示。

ChatGPT 風靡全球,能以一問一答的方式激發人們創意,幫助提升工作生產力,現在 OpenAI 進一步拓展使用 ChatGPT 的新方式,不僅可以透過文字方塊輸入提示對這個聊天機器人發問,還能透過語音輸入或圖片上傳的方式提供提示。新功能將在未來兩週內優先提供付費使用的 ChatGPT Plus、ChatGPT Enterprise 用戶,其他用戶很快也能獲得它。

首先在 ChatGPT 語音輸入方面對大多數用戶應不陌生,你只需要點擊按鍵並說出問題即可,ChatGPT 幫助你將語音轉成文字,接著讓大型語言模型進行運算、獲得答案,最後又將文字轉成語音,ChatGPT 會把答案朗誦出來。這與 Siri、Google 助理(Google Assistant)、Alexa 對話的方式一致,只是對象變成了 ChatGPT,受益於 OpenAI 開發的大型語言模型,語音回答的內容可望更加精準、豐富。

OpenAI 擁有出色的 Whisper 模型可以完成大量語音轉成文字的工作,但該公司正在推出一種新的文字轉語音模型,據稱能以幾秒鐘的語音樣本和文字內容產生人聲,於是你可以從 5 種預設選項選出 1 種 ChatGPT 的答覆語音。

然而 OpenAI 似乎認為新模型的潛力不只如此,正與 Spotify 展開合作,將平台的 Podcast 節目內容翻譯成其他語言,同時保留原本的音訊。

合成語音能有許多有趣用途,OpenAI 的新模型只需要幾秒鐘音訊就能產生合成語音。與此同時,OpenAI 更承認這將帶來許多問題與風險,比方說不法分子冒充公眾人物進行詐騙。OpenAI 則表示,基於這種原因,新模型無法廣泛開放,對於特定用途與合作夥伴,將受到更多限制。

▲ OpenAI 讓 ChatGPT 接受圖片上傳(上)、語音輸入(下)的提示方式。

至於在 ChatGPT 上傳圖片的作用有點像 Google 智慧鏡頭(Google Lens),當你拍下任何感興趣的照片上傳給 ChatGPT,它會嘗試弄清楚你所問的問題並做出回應。你也可以使用繪圖工具幫助你明確查詢,或者進一步輸入關鍵問題來搭配圖片,與 ChatGPT 一問一答、一來一往的特性徹底發揮作用。

但 OpenAI 也表示,基於準確性和隱私因素,該公司故意限制 ChatGPT 分析並直接發表陳述個人的能力,所以要 ChatGPT 看圖說出「他是誰」的情況恐怕還看不到。

雖然透過語音輸入或圖片上傳新方式,來為 ChatGPT 提供提示仍有限制,但 ChatGPT 背後有 GPT-3.5 甚至是強大的 GPT-4 模型支持,相較於常見的語音助理,ChatGPT 的答覆可望更精準、內容更豐富。

(首圖來源:Unsplash

延伸閱讀: