繼 ChatGPT 全面登陸蘋果全家方案之後,OpenAI 又帶來了重量級更新,ChatGPT 推出了視訊通話和螢幕分享功能以及一款聖誕老人限定語音「Santa Mode」。也就是說,現在 ChatGPT 不僅伶牙俐齒,還能「睜眼看世界」。遇事不決,直接給 ChatGPT 打「視訊通話」,或許它能夠更好地幫助你解決問題。
這些功能將在未來一週內推送給所有 Team 用戶和大部分 Plus 和 Pro 訂閱用戶。歐盟地區的付費用戶還需要再等等。支援 50 多種語言的 ChatGPT 將能夠即時理解視覺場景,幫助你解決問題,甚至化身 AI 導師教你掌握新事物。
在這場同樣不到 20 分鐘的發表會上,由 OpenAI 首席產品長 Kevin Weil、Jackie Shannon、Michelle Qin 和 Rowan Zellers 等人向我們展示長了「眼睛」的 ChatGPT 究竟能乾些什麼?
比如說,當你入手了一套手沖咖啡設備卻不知從何入門時,不妨給 ChatGPT 打一通「視訊通話」。它就能根據你面前的器具,手把手教你完成每一個步驟,從放置濾紙、倒熱水、將磨好的咖啡粉放入濾紙中等等,包教包會;這位 AI 老師不僅有問必答,偶爾會人性化地給予鼓勵,情緒價值拉滿。
除了即時視訊指導,ChatGPT 還支援螢幕分享功能。用戶只需點擊右下角的高級語音模式圖標,在下拉式選單中選擇分享螢幕,就能獲得針對性的幫助。
當「看」朋友穿著聖誕老人的裝扮,調侃是否有資格應聘購物中心的聖誕老人崗位時,GPT 老師會給予得體的措辭建議以及高情商的鼓勵。
嘿,Kevin,你的聖誕老人服裝很有節日氣氛。或許繼續練習你的「Ho Ho Ho」,很快就能成為購物中心的聖誕老人了。
事實上,OpenAI 總裁 Greg Brockman 前不久也與安德森‧庫柏(Anderson Cooper)利用帶有視覺功能的 ChatGPT 進行了關於人體解剖學的知識小測驗。當庫柏在黑板上畫出身體部位時,ChatGPT 能夠瞬間「理解」他所畫的內容。
「位置非常到位,大腦就在頭部那裡。至於形狀,這是一個不錯的開始,但大腦更像是一個橢圓形。」甚至,ChatGPT 還能用英式口音演唱三角形面積公式。但後續 ChatGPT 處理幾何問題時卻出現明顯的紕漏,沒能發現一個簡單的標註錯誤,在理解平面幾何的能力上仍有許多提升空間。
為了迎接聖誕節的到來,OpenAI 也特別推出了「聖誕老人」預設語音,用戶只需點擊主畫面上的雪花圖標,就能和 ChatGPT 聖誕老人聊天,例如讓聖誕老人講個故事。
不得不說,每次「聖誕老公公」開口的「Ho Ho Ho~」相當魔性,聽著就很有節慶氣氛。在直播活動過程中,主持人也向這位「聖誕老人」詢問幾個問題,包括但不限於最喜歡的聖誕傳統、最喜歡的馴鹿等等。
有趣的是,當 Kevin Weil 戴上聖誕老人的假鬍子詢問如何保養時,給予建議的 ChatGPT 還會用聖誕老人的口吻回應:
「朋友,這是我見過的最威武的鬍子。」
為了讓每個用戶都能充分體驗這個節日彩蛋,首次體驗時 OpenAI 會重置用戶的高級語音使用次數,即使用完額度,用戶也能繼續透過標準語音模式與「聖誕老人」互動。
或許是因為發表會戰線拉得太長,網友的吐槽聲也聚焦到這款聖誕老人語音上。最典型的例子當屬 X 網友 @khoomeik。
“mommy my friends said they talked to santa on the phone this year! can i pwease?? 🥺”
“sorry honey, your father and i are claude users. we need it for our very difficult web dev jobs”
do u really want this future? https://t.co/BiD8XxRdRp
— Rohan Pandey (@khoomeik) December 12, 2024
Google Deepmind 研究科學家 Jonas Adler 更是直接嗆聲 OpenAI:
OpenAI 總是能迅速對我們發表的產品做出回應,而且似乎總是能在同一時間發表,這令人感到神奇。然而,我對他們將 Santa 模式做為對 Gemini 2.0 的回應並不太感冒,因為它似乎缺乏與 Gemini 2.0 相匹配的重要性和嚴肅性。
值得一提的是,Google 搶先一步推出具備視覺理解能力的 AI 產品,能夠理解並解析用戶所處的實際場景,且收穫網友的一眾好評。到了今天,OpenAI 也緊隨其後,為 ChatGPT 裝上了「眼睛」,這也意味著 ChatGPT 從相對單一的模態,進一步拓展至「視覺 — 語言多模態理解」。
換言之,ChatGPT 將不再局限於用戶輸入的文字指令與訊息,而是能夠透過視覺來理解用戶所處的上下文環境,包括電腦螢幕上的頁面、手機相機所捕捉的影像、甚至其他外設的即時畫面。
如果說半個世紀前,帕羅奧多研究中心的科學家們幻想過一台能看懂人類行為的電腦;今天 AI 的發展,正在把這個夢想變成了顯示器之外的現實。從紙到鍵盤,從二進位到自然語言,人類一直在簡化與機器的溝通方式。而 ChatGPT 的視覺能力也讓我們看到了終極答案,那就是讓機器像人一樣「看」這個世界。