開口問也可以！OpenAI 讓 ChatGPT 接受語音輸入、圖片上傳提示

AI 聊天機器人 ChatGPT 推出近 1 年，正在學習以新的方式理解你的提問，未來不只透過文字提示，甚至可以語音輸入和圖片上傳 2 種新方式來提供提示。

ChatGPT 風靡全球，能以一問一答的方式激發人們創意，幫助提升工作生產力，現在 OpenAI 進一步拓展使用 ChatGPT 的新方式，不僅可以透過文字方塊輸入提示對這個聊天機器人發問，還能透過語音輸入或圖片上傳的方式提供提示。新功能將在未來兩週內優先提供付費使用的 ChatGPT Plus、ChatGPT Enterprise 用戶，其他用戶很快也能獲得它。

首先在 ChatGPT 語音輸入方面對大多數用戶應不陌生，你只需要點擊按鍵並說出問題即可，ChatGPT 幫助你將語音轉成文字，接著讓大型語言模型進行運算、獲得答案，最後又將文字轉成語音，ChatGPT 會把答案朗誦出來。這與 Siri、Google 助理（Google Assistant）、Alexa 對話的方式一致，只是對象變成了 ChatGPT，受益於 OpenAI 開發的大型語言模型，語音回答的內容可望更加精準、豐富。

OpenAI 擁有出色的 Whisper 模型可以完成大量語音轉成文字的工作，但該公司正在推出一種新的文字轉語音模型，據稱能以幾秒鐘的語音樣本和文字內容產生人聲，於是你可以從 5 種預設選項選出 1 種 ChatGPT 的答覆語音。

然而 OpenAI 似乎認為新模型的潛力不只如此，正與 Spotify 展開合作，將平台的 Podcast 節目內容翻譯成其他語言，同時保留原本的音訊。

合成語音能有許多有趣用途，OpenAI 的新模型只需要幾秒鐘音訊就能產生合成語音。與此同時，OpenAI 更承認這將帶來許多問題與風險，比方說不法分子冒充公眾人物進行詐騙。OpenAI 則表示，基於這種原因，新模型無法廣泛開放，對於特定用途與合作夥伴，將受到更多限制。

Use your voice to engage in a back-and-forth conversation with ChatGPT. Speak with it on the go, request a bedtime story, or settle a dinner table debate.

Sound on 🔊 pic.twitter.com/3tuWzX0wtS

— OpenAI (@OpenAI) September 25, 2023

▲ OpenAI 讓 ChatGPT 接受圖片上傳（上）、語音輸入（下）的提示方式。

至於在 ChatGPT 上傳圖片的作用有點像 Google 智慧鏡頭（Google Lens），當你拍下任何感興趣的照片上傳給 ChatGPT，它會嘗試弄清楚你所問的問題並做出回應。你也可以使用繪圖工具幫助你明確查詢，或者進一步輸入關鍵問題來搭配圖片，與 ChatGPT 一問一答、一來一往的特性徹底發揮作用。

但 OpenAI 也表示，基於準確性和隱私因素，該公司故意限制 ChatGPT 分析並直接發表陳述個人的能力，所以要 ChatGPT 看圖說出「他是誰」的情況恐怕還看不到。

雖然透過語音輸入或圖片上傳新方式，來為 ChatGPT 提供提示仍有限制，但 ChatGPT 背後有 GPT-3.5 甚至是強大的 GPT-4 模型支持，相較於常見的語音助理，ChatGPT 的答覆可望更精準、內容更豐富。

（首圖來源：Unsplash）