AI 判決 100% 正確，人類法官只有 52%？芝加哥大學研究掀司法震撼

芝加哥大學（University of Chicago）法律學者最新研究顯示，OpenAI 旗下 GPT-5 在法律推理測試中達到 100% 正確率，遠超美國聯邦法官的 52%。此項發現令法律界重新審視 AI 在司法體系的定位，同時也揭示一個根本矛盾：嚴格遵從法律條文的 AI，未必能取代人類法官基於道德與社會考量做出靈活裁決的能力。

研究背景：從戰爭罪案到交通事故的法律實驗

芝加哥大學法學教授 Eric Posner 與研究員 Shivam Saran 於 2025 年初發表首篇相關論文〈Judge AI: A Case Study of Large Language Models in Judicial Decision-Making〉。兩人以 OpenAI 的 GPT-4o 模型複製一宗涉及前南斯拉夫國際刑事法庭的戰爭罪案上訴實驗。研究團隊向 AI 提供案件事實陳述、控辯雙方法律文件、適用法律條文及先例摘要，要求模型以上訴法官身分裁決。

研究結果發現，GPT-4o 表現與法律學生高度相似，傾向嚴格遵循先例判決。模型幾乎完全不受被告是否值得同情等法律以外因素影響。此特質與真人法官形成鮮明對比，因為真人法官往往會考慮非法律因素，影響最終裁決。

2 位學者隨後發表題為〈Silicon Formalism: Rules, Standards, and Judge AI〉的延伸論文，採用 GPT-5 複製 1 項最初由 61 名美國聯邦法官參與的實驗。這次法律問題較日常，涉及 1 宗假設交通事故中應適用哪個州的法律。研究團隊操控 3 個變項：適用法律原則屬明確規則或裁量標準、原告或被告哪一方較值得同情，以及事故發生地點對法律結果的影響。

GPT-5 的完美表現與各模型差異

GPT-5 在此測試中取得零錯誤成績，所有案例均得出法律上正確結論，且未出現任何幻覺（hallucination）或邏輯謬誤。Posner 與 Saran 在論文指出，AI 模型在 100% 案例中套用法律得出正確結果，顯著高於法官僅 52% 的依法裁決比率。GPT-5 與法官相同，也沒有偏袒較值得同情的一方。

研究團隊也測試多個其他 AI 模型，結果呈現顯著差異。Google Gemini 3 Pro 與 GPT-5 並列，同樣在所有案例得出正確結果。Gemini 2.5 Pro 正確率為 92%，o4-mini 為 79%，Llama 4 Maverick 為 75%，Llama 4 Scout 與 GPT-4.1 均為 50%。相較之下，真人法官依法裁決率為 52%，與表現最弱的 AI 模型相若。

值得留意的是，法官「偏離」並不全然代表失誤。當適用法律原則屬標準或指引，而非強制性規則時，法官擁有一定裁量空間，可依具體情況判斷。Posner 與 Saran 在論文強調，人類法官此種「表面弱點」實際上是優勢，因為他們能在嚴格遵循規則可能產生不良道德、社會或政策後果時，選擇偏離既定規則。

AI 在法庭上的雙面刃：幻覺問題持續惡化

AI 在法律推理表現優異，卻與其在實際法律執業引發的嚴重問題形成強烈反差。根據 HEC Paris 商學院研究員 Damien Charlotin 維護的資料庫，自 2025 年初起，美國法院已記錄超過 518 宗涉及 AI 生成虛假內容的案例。律師使用 ChatGPT 等生成式 AI 工具撰寫法律檔案時，AI 可能憑空捏造不存在的案例引述。

2025 年 7 月，代表 MyPillow 行政總監 Mike Lindell 的 2 名律師因提交充斥 AI 生成錯誤的法律文件，被科羅拉多州聯邦法官 Nina Y. Wang 各罰款 3,000 美元。文件包含超過 20 項錯誤，當中包括多宗根本不存在的案例引述。加州 1 名法官也曾就 1 份 10 頁法律文件中近三分之一引述為 AI 捏造一事，向涉事律師事務所開出 31,100 美元罰款。

問題惡化速度令人擔憂。Charlotin 指出，2025 年春季前相關案例每週約出現 2 宗，其後激增至每日 2 到 3 宗。截至 2026 年初，全球已有超過 944 宗已確認的 AI 幻覺法律案例被記錄在案。法庭虛假引述案例中，律師與自行代表訴訟人約各占一半，反映即使受過專業訓練的法律從業員，同樣容易受 AI 幻覺影響。

加州上訴法院在 Noland v. Land of the Free 一案中開創新法律先例。法庭向提交虛假引述的律師罰款 10,000 美元，也拒絕向對方律師判處訟費，因為對方律師未能發現並向法庭報告虛假引述。此裁決提出一個嶄新專業責任問題：律師是否有義務偵測對手提交檔案中的 AI 虛假引述？

UNC 模擬審判實驗：AI 陪審團的啟示

2024 年 10 月，University of North Carolina at Chapel Hill 法學院進行 1 場具開創性的模擬審判實驗，由 ChatGPT、Claude 與 Grok 3 個 AI 系統擔任陪審員。這場以虛構的「2035 年 AI 刑事司法法案」為背景的實驗，審理 1 宗涉及非裔高中生被控搶劫的案件。該案以法學教授 Joseph Kennedy 在少年司法診所處理過的真實案件為藍本。

實驗結果令人深思：3 個 AI 陪審員一致裁定被告無罪。但在真實案件中，法官判定被告有罪，上訴也被駁回。Kennedy 教授在審判後表示，在現實世界審理此案，很多時候都會得出有罪判決。此種截然不同的結果，正好突顯 AI 嚴格依循法律標準與人類法官運用經驗判斷之間的根本差異。

UNC 法學院臨時院長 Andy Hessick 介紹實驗時指出，陪審員是不完美的個體。他們有偏見、會使用思維捷徑，也會分散注意力，這些缺陷都源於人類本質。法學教授 Eisha Jain 提出 AI 無法做到的關鍵功能：陪審團否決權（jury nullification），也就是陪審團在證據支持定罪的情況下，基於案件不應以刑事途徑處理的判斷而裁定無罪。此機制是民主制度對政府權力的重要制衡。

法律產業 AI 應用的商業啟示

全球法律產業正經歷 AI 技術快速滲透。Thomson Reuters 全球調查顯示，積極整合生成式 AI 的法律機構比率從 2024 年的 14% 上升至 2025 年的 26%。45% 的律師事務所正在使用 AI，或計劃在 1 年內將其納入核心工作流程。American Bar Association 的 2025 年法律產業報告也顯示，31% 法律專業人士在工作中使用生成式 AI，較上年 27% 有所成長。擁有 51 名或以上律師的事務所，AI 採用率達 39%，是 50 人以下事務所近 2 倍。

對企業而言，這些發展帶來幾個重要策略方向。合約審查與法律研究是目前 AI 最成熟的應用場景，企業法務部門可利用 AI 工具大幅提升檔案審閱效率。調查資料顯示，使用 AI 的法律專業人士中，65% 每週節省 1 到 5 小時，12% 節省 6 到 10 小時，7% 節省超過 11 小時。企業應考慮投資法律專用 AI 工具，而非通用型 AI，因為 29% 受訪律師表示更信賴法律專用工具的輸出結果。

Y Combinator 在 2025 年提出創業方向之一，是以 AI 代理人組建律師事務所，與傳統事務所競爭。全新「AI 原生」法律服務模式正在湧現。英國 Tacit Legal 以每份合約 95 英鎊（約港幣 HK$962）起固定收費提供 AI 輔助合約審查，由資深律師最終簽核。此種混合模式正在重塑法律服務定價結構。Clio 執行長 Jack Newton 預測按時計費模式將難以在 AI 時代存續，因為 AI 能讓律師以 1 小時完成過往需要 5 小時的工作，按時計費收入將縮減 80%。

法律 AI 投資門檻仍然較高，令大型律師事務所在採用率上占優勢。企業選擇法律 AI 工具時，應優先考慮與現有軟體系統的整合能力（43% 受訪者視此為首要因素）、供應商對法律工作流程的理解（33%），以及工具的道德合規性（26%）。

「矽式形式主義」的未來挑戰

Posner 與 Saran 將 AI 在法律推理展現的特質命名為「矽式形式主義」（Silicon Formalism），用以描述 AI 模型嚴格遵循法律條文、缺乏人類裁量彈性的傾向。此特質在追求法律確定性的商業交易中可能是優勢，但在涉及道德判斷與社會公義的刑事案件中，卻可能成為根本缺陷。

2 位學者在論文提出一個尖銳問題：社會是否願意接受教條式 AI 裁決，懲罰值得同情的被告，或獎賞不值得同情的一方？鑑於 AI 模型可透過參數設定與訓練資料引導輸出結果，如何為 AI 設定正確的「公義參數」，將成為法律界、科技界與公眾共同面對的重大課題。

法律產業預期 2026 年將持續加深 AI 應用，但短期內不會出現取代律師或法律支援人員的情況。MIT 報告指出，法律產業從業人數反而增加 6.4%。AI 幻覺問題也將持續困擾業界。法院對虛假引述的查處速度，已從 2023 年 4 月到 2025 年 5 月期間累計 120 宗，加速至 2025 年 12 月的 660 宗。多個州正制定 AI 使用指引，要求律師披露 AI 輔助撰寫的檔案並進行人工核實。

企業與法律機構需要在效率提升與風險管理之間取得平衡。AI 在法律推理的卓越表現為產業帶來巨大機會，但 Posner 與 Saran 的研究也提醒我們，法律本質並非單純追求條文正確，而是在規則與人性之間尋找平衡。正如 Kennedy 教授在 UNC 模擬審判後反思：「當人們已經習慣將 AI 視為醫療顧問、經濟顧問與心理治療師，他們會否也接受 AI 成為裁定罪與非罪的仲裁者？」此問題的答案，將決定法律產業未來 10 年的發展方向。