Deloitte 用 AI 寫出充滿「幻覺」的政府報告,使業界再擔憂 AI 轉型

作者 | 發布日期 2025 年 10 月 09 日 8:20 | 分類 AI 人工智慧 , 科技政策 , 資訊安全 line share Linkedin share follow us in feedly line share
Loading...
Deloitte 用 AI 寫出充滿「幻覺」的政府報告,使業界再擔憂 AI 轉型

全球四大會計師事務所之一 Deloitte 澳洲分公司 6 日同意退還澳洲政府部分價值 44 萬澳幣諮詢費。事件源於為澳洲就業及工作關係部(DEWR)撰寫長達 237 頁的報告,卻發現含大量人工智慧假內容,如不存在的引用論文、捏造的聯邦法院判決,以及多個無法查證的註釋。

雪梨大學健康與福利法研究中心副主任 Christopher Rudge 博士 8 月首次揭露這些錯誤,報告為典型AI「幻覺」產物,即生成式 AI 系統在資料不足時,會自行捏造看似合理但全錯的內容。這起醜聞除了重創 Deloitte 的專業聲譽,更掀起全球諮詢業 AI 工具使用規範的激烈討論。

報告嚴重失實:14 處假引用與捏造法院判例

Deloitte 2024 年 12 月接受 DEWR 委託,獨立保證審查澳洲「目標合規框架」(Targeted Compliance Framework,TCF)及配套 IT 系統。用於自動監測並懲罰未履行互惠義務的失業救濟申請者,如未按時參加面試或求職活動者。報告今年 7 月 4 日公布,指出框架有「懲罰性假設驅動的不合法傾向」及多項技術缺陷。

然《澳洲金融評論報》(Australian Financial Review)8 月揭露,報告含多處致命錯誤,引用不存在的雪梨大學和隆德大學教授論文,以及捏造名為「Amato 訴聯邦政府」的 Robodebt 案件法院判決。更新後報告 10 月 4 日公布,141 個參考文獻刪除 14 個假來源,並修正假引言。

Deloitte 承認用 GPT-4o 但歸咎人為失誤

大眾壓力下,Deloitte 修訂版報告附錄首次披露,部分內容為基於微軟 Azure OpenAI 平台的 GPT-4o 撰寫。AI 工具建於 DEWR 政府安全租戶系統,為「填補可追溯性和文件空缺」用途。雖然如此,Deloitte 聲明堅稱「此事直接與客戶和解」,並強調「報告內容、發現和建議均未受影響」。匿名知情人士透露,Deloitte 審查歸咎於「人為失誤」,而非 AI 產生報告的品質問題。

DEWR 證實 Deloitte 放棄合約最後一筆尾款,退款金額交易完成後公開。醜聞曝光同日,Deloitte 宣布與 AI 新創 Anthropic 擴大合作,讓 470,000 名員工使用 Claude 聊天機器人,並培訓 15,000 名專業人員取得 AI 證照。

專家多角度批判:諮詢業 AI 濫用響起警鐘

這起事件引發多方嚴厲批評,澳洲工黨參議員 Deborah O′Neill 直言 Deloitte 有「人類智慧問題」,諷刺「部分退款看來像對低標準工作道歉」,並建議政府機構「或許該直接訂閱 ChatGPT,而非聘請大型諮詢公司」。Christopher Rudge 博士接受《The Nightly》採訪時指出,使用 AI 撰寫政府報告「學術研究界高度不道德」,強調政府需「值得信賴、可靠且基於真實知識的建議」,呼籲將來必須明確監管。

網路安全研究機構 Maxim AI 的 9 月報告顯示,OpenAI o3 模型事實性問題測試幻覺率高達 33%,o4 mini 模型 SimpleQA 基準測試幻覺率更飆升至 79%。Deloitte 今年調查也顯示,77% 商業領袖對 AI 幻覺影響營運表示擔憂。市場研究公司 Gartner 數據指出,45% 企業因 AI 錯誤蒙受聲譽損害,平均每宗事件損失超過 55 萬美元。

業界信任危機深化:諮詢巨頭依賴 AI 引質疑

這並非澳洲諮詢業首次因 AI 問題陷入爭議。2023 年 11 月 KPMG 和 Deloitte 等四大會計師事務所曾被澳洲研究員指控,內容是用 Google Bard AI 工具產生假資訊,後來證實均為 AI 幻覺產物,團隊公開道歉。然此次性質更嚴重,因 AI 工具是由諮詢公司用於政府付費專案。Deloitte 在澳洲四大會計師事務所中,負責審計全國前 200 大企業 193 家,專業可信度直接影響市場信心。

澳洲國會公司與金融服務聯合委員會(PJC)2024 年 11 月報告,對 PwC 稅務醜聞後提出 40 項改革建議,強制要求實體揭露非審計服務、禁止大型事務所同時提供審計與諮詢服務等。《金融時報》報導,英國六大會計師事務所尚未監測 AI 對審計品質的影響度,顯示全球諮詢業可能有更多 AI 濫用風險。

矛盾的 AI 戰略:退款與全面部署同步進行

Deloitte 與 Anthropic 合作協議細節顯示,雙方將建立「Claude 卓越中心」,為 470,000 名員工提供個人化 AI「人物角色」,涵蓋會計師、軟體開發人員等。Anthropic 商務長 Paul Smith 強調,Deloitte 選擇 Claude 是因「安全優先設計」滿足合法和控制需求。Deloitte 美國首席戰略與技術長 Ranjit Bawa 表示,推廣員工用 AI 除了能提升個人生產力,更能增強建議客戶時的可信度。然而這項雄心勃勃的計劃與退款醜聞時間重疊,形成諷刺局面。

諮詢業分析師指出,諮詢公司面臨雙重壓力:一方面要展現 AI 創新以吸引客戶,另一方面又須建立嚴格治理機制以防範幻覺風險。KPMG 9 月風險管理指南強調,AI 主導的商業環境,網路安全和輸出驗證的基本原則更關鍵。

監管缺口突顯政府採購需建立 AI 使用透明機制

事件也暴露澳洲政府採購流程 AI 使用規範缺失。Christopher Rudge 博士指出,修訂版報告新增某些引用同樣無法查證,顯示 Deloitte 未根本解決問題,「代表原始主張並非基於任何單一可驗證來源」。澳洲議會參議員 Tim Wilson 批評,就業及工作關係部對監督承包商「疏忽職守」,與建築工會腐敗問題相提並論。參議員 Deborah O′Neill 呼籲政府機構核實執行主體,並明確揭露有否使用 AI。

國際律師協會的數據顯示,單 7 月全球各司法管轄區就公開報告超過 50 宗涉及 AI 產生假法律引用案件。專家建議,政府合約應強制要求承包商披露 AI 工具使用狀況、設定人工審核檢查點,並將 AI 幻覺列入違約條款。

企業決策風險警示:高額諮詢費不等於原創研究

這宗醜聞為企業高層敲響警鐘:即使支付數十萬美元聘請國際頂級諮詢公司,也可能收到不是原創、AI 隨便產生的報告。McKinsey 1 月職場 AI 報告顯示,約半數員工擔憂 AI 不準確性和網路安全風險,卻對 AI 用途很有信心。市場研究機構預測,2025 年全球 AI 諮詢市場規模超過 200 億美元,但缺乏品質監管可能導致泡沫化。

企業風險管理專家建議,制定關鍵策略或重大財務決策時,應要求諮詢公司提供研究方法論文件、原始數據存取權限,並進行獨立第三方驗證。Deloitte 聲稱 AI 僅是寫「早期草稿」,且最終內容經專家審核,但報告大量假引用事實與此矛盾。

技術層面分析:GPT-4o 企業應用的侷限性

Deloitte 使用的 OpenAI GPT-4o 模型以速度和多模態著稱,但準確性有明顯缺點。評測顯示,GPT-4o 客戶支援自動化和內容產生等高流量場景表現優異,但深度推理和引用驗證,可靠性遠低於 OpenAI o1 系列。專門從事 AI 風險管理的諮詢公司 Resilience Forward 6 月指南指出,企業部署生成式 AI 必須建立「實體密度控制」機制,確保每 100 字含三至五個可驗證實體,並將 TF-IDF 值控制在 0.02~0.04 內以避免幻覺。

德國聯邦資訊安全辦公室(BSI)警告,企業敏感業務領域不加驗證使用 AI 系統,將造成日益嚴重的安全風險。技術專家建議,法律、財務和政府諮詢等高風險領域應禁止單獨使用 AI 生成內容,必須配備人工事實核查和引用驗證流程。

給企業的啟示與未來趨勢

Deloitte 事件代表企業 AI 應用從「盲目樂觀」轉向「審慎治理」的轉捩點。諮詢業研究顯示,77% 專案型企業預定今年增加 AI 投資,但許多機構尚未意識到員工已在用的「影子 AI」工具。Anthropic 強調「Trustworthy AI」框架能為受監管行業提供合法功能,但 Deloitte 澳洲案例證明,技術安全性無法取代人類專業判斷。

企業應建立三層防護機制:首先,合約須明確規定 AI 使用揭露要求和驗證標準;其次,建立 AI 治理委員會,審核所有外包諮詢報告;最後,投資員工培訓辨識 AI 生成內容的典型特徵。生成式 AI 滲透商業環境持續上升,監管機構可能效仿歐盟 AI 法案,強制性人工監督高風險應用場景。對依賴諮詢公司的企業而言,「付費即信任」時代已終結,取而代之的是基於透明度、可驗證性和人類專業性的新合作模式。

(本文由 Unwire Pro 授權轉載;首圖來源:Deloitte Global

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》