Deloitte 用 AI 寫出充滿「幻覺」的政府報告，使業界再擔憂 AI 轉型

全球四大會計師事務所之一 Deloitte 澳洲分公司 6 日同意退還澳洲政府部分價值 44 萬澳幣諮詢費。事件源於為澳洲就業及工作關係部（DEWR）撰寫長達 237 頁的報告，卻發現含大量人工智慧假內容，如不存在的引用論文、捏造的聯邦法院判決，以及多個無法查證的註釋。

雪梨大學健康與福利法研究中心副主任 Christopher Rudge 博士 8 月首次揭露這些錯誤，報告為典型AI「幻覺」產物，即生成式 AI 系統在資料不足時，會自行捏造看似合理但全錯的內容。這起醜聞除了重創 Deloitte 的專業聲譽，更掀起全球諮詢業 AI 工具使用規範的激烈討論。

報告嚴重失實：14 處假引用與捏造法院判例

Deloitte 2024 年 12 月接受 DEWR 委託，獨立保證審查澳洲「目標合規框架」（Targeted Compliance Framework，TCF）及配套 IT 系統。用於自動監測並懲罰未履行互惠義務的失業救濟申請者，如未按時參加面試或求職活動者。報告今年 7 月 4 日公布，指出框架有「懲罰性假設驅動的不合法傾向」及多項技術缺陷。

然《澳洲金融評論報》（Australian Financial Review）8 月揭露，報告含多處致命錯誤，引用不存在的雪梨大學和隆德大學教授論文，以及捏造名為「Amato 訴聯邦政府」的 Robodebt 案件法院判決。更新後報告 10 月 4 日公布，141 個參考文獻刪除 14 個假來源，並修正假引言。

Deloitte 承認用 GPT-4o 但歸咎人為失誤

大眾壓力下，Deloitte 修訂版報告附錄首次披露，部分內容為基於微軟 Azure OpenAI 平台的 GPT-4o 撰寫。AI 工具建於 DEWR 政府安全租戶系統，為「填補可追溯性和文件空缺」用途。雖然如此，Deloitte 聲明堅稱「此事直接與客戶和解」，並強調「報告內容、發現和建議均未受影響」。匿名知情人士透露，Deloitte 審查歸咎於「人為失誤」，而非 AI 產生報告的品質問題。

DEWR 證實 Deloitte 放棄合約最後一筆尾款，退款金額交易完成後公開。醜聞曝光同日，Deloitte 宣布與 AI 新創 Anthropic 擴大合作，讓 470,000 名員工使用 Claude 聊天機器人，並培訓 15,000 名專業人員取得 AI 證照。

專家多角度批判：諮詢業 AI 濫用響起警鐘

這起事件引發多方嚴厲批評，澳洲工黨參議員 Deborah O′Neill 直言 Deloitte 有「人類智慧問題」，諷刺「部分退款看來像對低標準工作道歉」，並建議政府機構「或許該直接訂閱 ChatGPT，而非聘請大型諮詢公司」。Christopher Rudge 博士接受《The Nightly》採訪時指出，使用 AI 撰寫政府報告「學術研究界高度不道德」，強調政府需「值得信賴、可靠且基於真實知識的建議」，呼籲將來必須明確監管。

網路安全研究機構 Maxim AI 的 9 月報告顯示，OpenAI o3 模型事實性問題測試幻覺率高達 33%，o4 mini 模型 SimpleQA 基準測試幻覺率更飆升至 79%。Deloitte 今年調查也顯示，77% 商業領袖對 AI 幻覺影響營運表示擔憂。市場研究公司 Gartner 數據指出，45% 企業因 AI 錯誤蒙受聲譽損害，平均每宗事件損失超過 55 萬美元。

業界信任危機深化：諮詢巨頭依賴 AI 引質疑

這並非澳洲諮詢業首次因 AI 問題陷入爭議。2023 年 11 月 KPMG 和 Deloitte 等四大會計師事務所曾被澳洲研究員指控，內容是用 Google Bard AI 工具產生假資訊，後來證實均為 AI 幻覺產物，團隊公開道歉。然此次性質更嚴重，因 AI 工具是由諮詢公司用於政府付費專案。Deloitte 在澳洲四大會計師事務所中，負責審計全國前 200 大企業 193 家，專業可信度直接影響市場信心。

澳洲國會公司與金融服務聯合委員會（PJC）2024 年 11 月報告，對 PwC 稅務醜聞後提出 40 項改革建議，強制要求實體揭露非審計服務、禁止大型事務所同時提供審計與諮詢服務等。《金融時報》報導，英國六大會計師事務所尚未監測 AI 對審計品質的影響度，顯示全球諮詢業可能有更多 AI 濫用風險。

矛盾的 AI 戰略：退款與全面部署同步進行

Deloitte 與 Anthropic 合作協議細節顯示，雙方將建立「Claude 卓越中心」，為 470,000 名員工提供個人化 AI「人物角色」，涵蓋會計師、軟體開發人員等。Anthropic 商務長 Paul Smith 強調，Deloitte 選擇 Claude 是因「安全優先設計」滿足合法和控制需求。Deloitte 美國首席戰略與技術長 Ranjit Bawa 表示，推廣員工用 AI 除了能提升個人生產力，更能增強建議客戶時的可信度。然而這項雄心勃勃的計劃與退款醜聞時間重疊，形成諷刺局面。

諮詢業分析師指出，諮詢公司面臨雙重壓力：一方面要展現 AI 創新以吸引客戶，另一方面又須建立嚴格治理機制以防範幻覺風險。KPMG 9 月風險管理指南強調，AI 主導的商業環境，網路安全和輸出驗證的基本原則更關鍵。

監管缺口突顯政府採購需建立 AI 使用透明機制

事件也暴露澳洲政府採購流程 AI 使用規範缺失。Christopher Rudge 博士指出，修訂版報告新增某些引用同樣無法查證，顯示 Deloitte 未根本解決問題，「代表原始主張並非基於任何單一可驗證來源」。澳洲議會參議員 Tim Wilson 批評，就業及工作關係部對監督承包商「疏忽職守」，與建築工會腐敗問題相提並論。參議員 Deborah O′Neill 呼籲政府機構核實執行主體，並明確揭露有否使用 AI。

國際律師協會的數據顯示，單 7 月全球各司法管轄區就公開報告超過 50 宗涉及 AI 產生假法律引用案件。專家建議，政府合約應強制要求承包商披露 AI 工具使用狀況、設定人工審核檢查點，並將 AI 幻覺列入違約條款。

企業決策風險警示：高額諮詢費不等於原創研究

這宗醜聞為企業高層敲響警鐘：即使支付數十萬美元聘請國際頂級諮詢公司，也可能收到不是原創、AI 隨便產生的報告。McKinsey 1 月職場 AI 報告顯示，約半數員工擔憂 AI 不準確性和網路安全風險，卻對 AI 用途很有信心。市場研究機構預測，2025 年全球 AI 諮詢市場規模超過 200 億美元，但缺乏品質監管可能導致泡沫化。

企業風險管理專家建議，制定關鍵策略或重大財務決策時，應要求諮詢公司提供研究方法論文件、原始數據存取權限，並進行獨立第三方驗證。Deloitte 聲稱 AI 僅是寫「早期草稿」，且最終內容經專家審核，但報告大量假引用事實與此矛盾。

技術層面分析：GPT-4o 企業應用的侷限性

Deloitte 使用的 OpenAI GPT-4o 模型以速度和多模態著稱，但準確性有明顯缺點。評測顯示，GPT-4o 客戶支援自動化和內容產生等高流量場景表現優異，但深度推理和引用驗證，可靠性遠低於 OpenAI o1 系列。專門從事 AI 風險管理的諮詢公司 Resilience Forward 6 月指南指出，企業部署生成式 AI 必須建立「實體密度控制」機制，確保每 100 字含三至五個可驗證實體，並將 TF-IDF 值控制在 0.02~0.04 內以避免幻覺。

德國聯邦資訊安全辦公室（BSI）警告，企業敏感業務領域不加驗證使用 AI 系統，將造成日益嚴重的安全風險。技術專家建議，法律、財務和政府諮詢等高風險領域應禁止單獨使用 AI 生成內容，必須配備人工事實核查和引用驗證流程。

給企業的啟示與未來趨勢

Deloitte 事件代表企業 AI 應用從「盲目樂觀」轉向「審慎治理」的轉捩點。諮詢業研究顯示，77% 專案型企業預定今年增加 AI 投資，但許多機構尚未意識到員工已在用的「影子 AI」工具。Anthropic 強調「Trustworthy AI」框架能為受監管行業提供合法功能，但 Deloitte 澳洲案例證明，技術安全性無法取代人類專業判斷。

企業應建立三層防護機制：首先，合約須明確規定 AI 使用揭露要求和驗證標準；其次，建立 AI 治理委員會，審核所有外包諮詢報告；最後，投資員工培訓辨識 AI 生成內容的典型特徵。生成式 AI 滲透商業環境持續上升，監管機構可能效仿歐盟 AI 法案，強制性人工監督高風險應用場景。對依賴諮詢公司的企業而言，「付費即信任」時代已終結，取而代之的是基於透明度、可驗證性和人類專業性的新合作模式。

（本文由 Unwire Pro 授權轉載；首圖來源：Deloitte Global）