叫人吃石頭、披薩塗膠水,Google AI 搜尋瘋了嗎?

作者 | 發布日期 2024 年 05 月 28 日 11:10 | 分類 AI 人工智慧 , Google , 科技趣聞 line share Linkedin share follow us in feedly line share
叫人吃石頭、披薩塗膠水,Google AI 搜尋瘋了嗎?


福無雙至,禍不單行,Google 又又又「翻車」了。

2023 年 2 月想追上 ChatGPT 的 Bard,犯了事實錯誤;2023 年 12 月 Gemini 侃侃而談就像賈維斯,但影片其實有後製過;2024 年 2 月 Gemini 產生各種膚色的歷史人物,遭評歧視白人。這次厄運降臨竟是 Google 的看家本領:搜尋引擎。網友看熱鬧不嫌事大,紛紛上傳鬥圖狂歡。

眾人笑的 Google AI 搜尋有種清澈的蠢感

結束不久的 Google I/O 2024,新功能之一是 AI Overview(AI 概述)。顧名思義,AI Overview 網頁頂端產生多來源摘要,當然有附連結。Google 對 AI Overview 很有信心,宣布即日全美國開放,之後也會推至更多國家,年底超過 10 億人可用。

但沒過幾天,AI Overview 就翻車了。

做披薩但乳酪容易掉下來怎麼辦?

Google 建議您,醬汁添加約八分之一杯膠水。特意強調這無毒,原因令人感動。Google AI 並非編造,而是照搬「美版 PTT」Reddit 某使用者 11 年前留言,可惜 AI 不懂人類的幽默。

人一天該吃多少石頭補充營養?

AI 沒有反駁問題不合理,只一本正經胡說八道:據加州大學柏克萊分校地質學家說法,一天至少吃一塊小石頭,以便攝取維生素和礦物質。答案來源是 2021 年一篇「報導」,出自以假新聞和諷刺文聞名的洋蔥新聞。

AI Overview 也不精通美國歷史,掉進陰謀論陷阱,說歐巴馬是第一位穆斯林總統。

X 等社群平台馬上掀起浪潮:曬截圖,比誰家 Google AI 回答最ㄎㄧㄤ。競爭異常激烈,AI 世界的前總統從威斯康辛大學畢業 21 次,一隻狗曾在 NBA、NFL 和 NHL 打過球,蝙蝠俠是警察。

鄉民聚集地,渾水摸魚和顛倒是非也不少。

Google 解釋大部分 AI Overview 資訊都正常,也會提供有效連結供用戶深入了解,且很多「翻車」例子都不常見,無法重現結果甚至篡改,如流傳甚廣的截圖顯示,治療憂鬱症的方法是跳下金門大橋一了百了。事關人命,Google 對此特別解釋這是假的。

但 Google 沒有解釋其他例子,而是當成改進 AI 的養分,這可是現成的人類回饋強化學習(RLHF)機會呢。火眼金睛的網友還發現,I/O 2024 時精挑細選的示範也有事實錯誤,只不過很不明顯。如何修復卡住的底片相機?Google 建議打開背蓋並輕輕取下底片,但這樣會毀掉整捲底片。

 

流年不利的 Google,不是第一次在萬眾矚目的場合犯錯。2023 年 2 月,Google 展示 Bard 時說,詹姆斯韋伯太空望遠鏡是第一個拍攝太陽系外行星的太空望遠鏡。但第一張系外行星圖是 2004 年拍攝。一次錯誤,付出市值縮水千億美元的代價。

這次除了 AI Overview 犯錯,還有一個槽點:這功能很難關掉。熱心開發者趕做外掛,強制只顯示傳統搜尋結果。沒有方便退出機制是 Google 不對,而 AI Overview 基於傳統搜尋,使用者量極大,萬一有不熟悉 AI 的使用者,盲目信任結果又被誤導,後果就很恐怖了。

「Google 錯誤率怎麼有 30%?」

AI Overview 有問題不新鮮,AI 會犯錯早就是公開的祕密,如「吸菸有害健康」這種標語,AI Overview 網頁下方也有標註:「生成式 AI 只是實驗性」,ChatGPT 也小字提醒:「可能會犯錯。請核查重要資訊。」

大語言模型基礎原理是,預測下個單字或片語產生機率最高,有時可能會選擇不正確但合理的字詞,導致假資訊或「幻覺」。AI Overview 胡言亂語也是幻覺之一,結合大語言模型產生語句和網路連結,可引用來源,但不保證正確性。哪怕是 RAG(檢索增強產生)技術,將檢索系統與模型結合,限制回答範圍,也只能抑制幻覺,無法根治。

且來源可信度本就存疑。Reddit 是網友貢獻內容,而非權威媒體。2 月 Google 與 Reddit 達成協定,論壇內容可餵給 AI 模型訓練,有人質疑這只是「garbage in, garbage out.」(垃圾進,垃圾出)。

被「幻覺」困擾的不只 Google。去年 5 月網友提問微軟 New Bing 時,答案明顯錯誤,他點開參考連結發現,答案來源的知乎回答也是 AI 產生,用字遣詞充滿 AI 味,人遠不能及。

AI 搜尋如何引用資料,也是讓人費解的問題。以簡體中文搜尋「如何幫柴犬洗澡」,Perplexity 來源是搜狐、YouTube、豆瓣日記、B 站,天工是知乎、百度文庫,真不知哪個較可信。

然 AI 搜尋都有幻覺,為什麼總是 Google 被架在火上烤?

Google 1998 年創立,幾乎是搜尋代名詞,又是 AI 巨擘,當然外界期待很高,也必須承擔犯錯後果。相反的,Perplexity CEO Aravind Srinivas 表示,輕裝上陣就是他們的優勢,語氣頗為驕傲。

如果你用我們的產品,80% 表現不錯,可能印象深刻,但如果用 Google 產品只有 70% 答案正確,你可能會不解,Google 錯誤率怎會高達 30%?

AI 搜尋也導致用戶認知轉變。以前說「Google 搜尋」,介紹搜尋生成式 AI 功能時,Google 標題是「讓 Google 幫您搜尋」,主次微妙倒轉。過去 Google 展現哪些連結回答問題,現在自己用 AI 回答問題。

傳播錯誤資訊的矛頭從來源轉至只是引用的 Google,但這黑鍋 Google 不得不背。

AI 搜尋回答事實以外還有哪些可能性

既然幻覺是固定前提,應換個角度看 AI 搜尋,問自己:是否人類預期錯了?AI Overview 遭批前,Google CEO 皮蔡近日 The Verge 採訪就提到「幻覺」仍未解決,甚至可說是大語言模型的特徵。大語言模型不一定是取得事實的最佳管道,但不代表大語言模型是廢柴,非黑即白不可取。

CEO 接受採訪也好,I/O 大會宣傳也罷,都是向用戶傳遞理念:不要把 AI 搜尋當作網頁的簡單總結,AI 能發光發熱的地方還有很多,但 AI Overview 讓人不滿意,也不是用戶的錯,比起示範,現在 AI Overview 並非完全體,很多功能還未上線。

Google 搜尋主管 Liz Reid 示範「多步推理」,輸入「找到波士頓最佳瑜伽教室,顯示優惠資訊,以及從燈塔山出發的步行時間」,AI 回答一步到位,以前要搜尋三次,現在一次就行。AI Overview 將來還會有「規劃」功能,如要求 AI 規劃三天晚餐,使用者可直接拿到食譜,並中添加更多細節如「素食」等需求,然後匯出成各種檔案。

Google 思路和其他 AI 搜尋產品殊途同歸:搜尋更可視化、更多互動和個人化,用人話而非關鍵詞溝通,節省重複檢查資訊的時間,回答更複雜問題。

祕塔有簡潔、深入、研究等模式,研究模式甚至列出大綱和腦圖,產生示範文件;Perplexity 可控制搜尋範圍,既能搜整個網路,也能照需求縮小至如學術論文、YouTube、Reddit 等;天工將 AI 搜尋當成入口,搭載更多生產力工具,提供 AI 速讀、音樂創作等智慧體,等於 AI 搜尋以外搭建 AIGC 創作平台。

平時多數問題,天氣、匯率、跳到官網,簡單傳統搜尋就有答案。但複雜問題,AI 搜尋被寄予厚望,畢竟比 ChatGPT 等多了來源,方便查證,比傳統搜尋又多了研究、創作、規劃、腦力激盪等,與其說是比傳統搜尋更好的百科全書,不如說更像 AI agent。

當然,餅畫得再大,AI 搜尋的幻覺問題還是讓人厭煩。有人建議安全起見,用生成式 AI 別只看摘要,再用傳統 Google 搜尋檢查一下。看來風水雖然輪流轉,但大哥還是大哥。

(本文由 愛范兒 授權轉載;首圖來源:Google

延伸閱讀:

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》