AI 判決 100% 正確,人類法官只有 52%?芝加哥大學研究掀司法震撼

作者 | 發布日期 2026 年 02 月 19 日 8:30 | 分類 ChatGPT , OpenAI , 人力資源 line share Linkedin share follow us in feedly line share
Loading...
AI 判決 100% 正確,人類法官只有 52%?芝加哥大學研究掀司法震撼

芝加哥大學(University of Chicago)法律學者最新研究顯示,OpenAI 旗下 GPT-5 在法律推理測試中達到 100% 正確率,遠超美國聯邦法官的 52%。此項發現令法律界重新審視 AI 在司法體系的定位,同時也揭示一個根本矛盾:嚴格遵從法律條文的 AI,未必能取代人類法官基於道德與社會考量做出靈活裁決的能力。

研究背景:從戰爭罪案到交通事故的法律實驗

芝加哥大學法學教授 Eric Posner 與研究員 Shivam Saran 於 2025 年初發表首篇相關論文〈Judge AI: A Case Study of Large Language Models in Judicial Decision-Making〉。兩人以 OpenAI 的 GPT-4o 模型複製一宗涉及前南斯拉夫國際刑事法庭的戰爭罪案上訴實驗。研究團隊向 AI 提供案件事實陳述、控辯雙方法律文件、適用法律條文及先例摘要,要求模型以上訴法官身分裁決。

研究結果發現,GPT-4o 表現與法律學生高度相似,傾向嚴格遵循先例判決。模型幾乎完全不受被告是否值得同情等法律以外因素影響。此特質與真人法官形成鮮明對比,因為真人法官往往會考慮非法律因素,影響最終裁決。

2 位學者隨後發表題為〈Silicon Formalism: Rules, Standards, and Judge AI〉的延伸論文,採用 GPT-5 複製 1 項最初由 61 名美國聯邦法官參與的實驗。這次法律問題較日常,涉及 1 宗假設交通事故中應適用哪個州的法律。研究團隊操控 3 個變項:適用法律原則屬明確規則或裁量標準、原告或被告哪一方較值得同情,以及事故發生地點對法律結果的影響。

GPT-5 的完美表現與各模型差異

GPT-5 在此測試中取得零錯誤成績,所有案例均得出法律上正確結論,且未出現任何幻覺(hallucination)或邏輯謬誤。Posner 與 Saran 在論文指出,AI 模型在 100% 案例中套用法律得出正確結果,顯著高於法官僅 52% 的依法裁決比率。GPT-5 與法官相同,也沒有偏袒較值得同情的一方。

研究團隊也測試多個其他 AI 模型,結果呈現顯著差異。Google Gemini 3 Pro 與 GPT-5 並列,同樣在所有案例得出正確結果。Gemini 2.5 Pro 正確率為 92%,o4-mini 為 79%,Llama 4 Maverick 為 75%,Llama 4 Scout 與 GPT-4.1 均為 50%。相較之下,真人法官依法裁決率為 52%,與表現最弱的 AI 模型相若。

值得留意的是,法官「偏離」並不全然代表失誤。當適用法律原則屬標準或指引,而非強制性規則時,法官擁有一定裁量空間,可依具體情況判斷。Posner 與 Saran 在論文強調,人類法官此種「表面弱點」實際上是優勢,因為他們能在嚴格遵循規則可能產生不良道德、社會或政策後果時,選擇偏離既定規則。

AI 在法庭上的雙面刃:幻覺問題持續惡化

AI 在法律推理表現優異,卻與其在實際法律執業引發的嚴重問題形成強烈反差。根據 HEC Paris 商學院研究員 Damien Charlotin 維護的資料庫,自 2025 年初起,美國法院已記錄超過 518 宗涉及 AI 生成虛假內容的案例。律師使用 ChatGPT 等生成式 AI 工具撰寫法律檔案時,AI 可能憑空捏造不存在的案例引述。

2025 年 7 月,代表 MyPillow 行政總監 Mike Lindell 的 2 名律師因提交充斥 AI 生成錯誤的法律文件,被科羅拉多州聯邦法官 Nina Y. Wang 各罰款 3,000 美元。文件包含超過 20 項錯誤,當中包括多宗根本不存在的案例引述。加州 1 名法官也曾就 1 份 10 頁法律文件中近三分之一引述為 AI 捏造一事,向涉事律師事務所開出 31,100 美元罰款。

問題惡化速度令人擔憂。Charlotin 指出,2025 年春季前相關案例每週約出現 2 宗,其後激增至每日 2 到 3 宗。截至 2026 年初,全球已有超過 944 宗已確認的 AI 幻覺法律案例被記錄在案。法庭虛假引述案例中,律師與自行代表訴訟人約各占一半,反映即使受過專業訓練的法律從業員,同樣容易受 AI 幻覺影響。

加州上訴法院在 Noland v. Land of the Free 一案中開創新法律先例。法庭向提交虛假引述的律師罰款 10,000 美元,也拒絕向對方律師判處訟費,因為對方律師未能發現並向法庭報告虛假引述。此裁決提出一個嶄新專業責任問題:律師是否有義務偵測對手提交檔案中的 AI 虛假引述?

UNC 模擬審判實驗:AI 陪審團的啟示

2024 年 10 月,University of North Carolina at Chapel Hill 法學院進行 1 場具開創性的模擬審判實驗,由 ChatGPT、Claude 與 Grok 3 個 AI 系統擔任陪審員。這場以虛構的「2035 年 AI 刑事司法法案」為背景的實驗,審理 1 宗涉及非裔高中生被控搶劫的案件。該案以法學教授 Joseph Kennedy 在少年司法診所處理過的真實案件為藍本。

實驗結果令人深思:3 個 AI 陪審員一致裁定被告無罪。但在真實案件中,法官判定被告有罪,上訴也被駁回。Kennedy 教授在審判後表示,在現實世界審理此案,很多時候都會得出有罪判決。此種截然不同的結果,正好突顯 AI 嚴格依循法律標準與人類法官運用經驗判斷之間的根本差異。

UNC 法學院臨時院長 Andy Hessick 介紹實驗時指出,陪審員是不完美的個體。他們有偏見、會使用思維捷徑,也會分散注意力,這些缺陷都源於人類本質。法學教授 Eisha Jain 提出 AI 無法做到的關鍵功能:陪審團否決權(jury nullification),也就是陪審團在證據支持定罪的情況下,基於案件不應以刑事途徑處理的判斷而裁定無罪。此機制是民主制度對政府權力的重要制衡。

法律產業 AI 應用的商業啟示

全球法律產業正經歷 AI 技術快速滲透。Thomson Reuters 全球調查顯示,積極整合生成式 AI 的法律機構比率從 2024 年的 14% 上升至 2025 年的 26%。45% 的律師事務所正在使用 AI,或計劃在 1 年內將其納入核心工作流程。American Bar Association 的 2025 年法律產業報告也顯示,31% 法律專業人士在工作中使用生成式 AI,較上年 27% 有所成長。擁有 51 名或以上律師的事務所,AI 採用率達 39%,是 50 人以下事務所近 2 倍。

對企業而言,這些發展帶來幾個重要策略方向。合約審查與法律研究是目前 AI 最成熟的應用場景,企業法務部門可利用 AI 工具大幅提升檔案審閱效率。調查資料顯示,使用 AI 的法律專業人士中,65% 每週節省 1 到 5 小時,12% 節省 6 到 10 小時,7% 節省超過 11 小時。企業應考慮投資法律專用 AI 工具,而非通用型 AI,因為 29% 受訪律師表示更信賴法律專用工具的輸出結果。

Y Combinator 在 2025 年提出創業方向之一,是以 AI 代理人組建律師事務所,與傳統事務所競爭。全新「AI 原生」法律服務模式正在湧現。英國 Tacit Legal 以每份合約 95 英鎊(約港幣 HK$962)起固定收費提供 AI 輔助合約審查,由資深律師最終簽核。此種混合模式正在重塑法律服務定價結構。Clio 執行長 Jack Newton 預測按時計費模式將難以在 AI 時代存續,因為 AI 能讓律師以 1 小時完成過往需要 5 小時的工作,按時計費收入將縮減 80%。

法律 AI 投資門檻仍然較高,令大型律師事務所在採用率上占優勢。企業選擇法律 AI 工具時,應優先考慮與現有軟體系統的整合能力(43% 受訪者視此為首要因素)、供應商對法律工作流程的理解(33%),以及工具的道德合規性(26%)。

「矽式形式主義」的未來挑戰

Posner 與 Saran 將 AI 在法律推理展現的特質命名為「矽式形式主義」(Silicon Formalism),用以描述 AI 模型嚴格遵循法律條文、缺乏人類裁量彈性的傾向。此特質在追求法律確定性的商業交易中可能是優勢,但在涉及道德判斷與社會公義的刑事案件中,卻可能成為根本缺陷。

2 位學者在論文提出一個尖銳問題:社會是否願意接受教條式 AI 裁決,懲罰值得同情的被告,或獎賞不值得同情的一方?鑑於 AI 模型可透過參數設定與訓練資料引導輸出結果,如何為 AI 設定正確的「公義參數」,將成為法律界、科技界與公眾共同面對的重大課題。

法律產業預期 2026 年將持續加深 AI 應用,但短期內不會出現取代律師或法律支援人員的情況。MIT 報告指出,法律產業從業人數反而增加 6.4%。AI 幻覺問題也將持續困擾業界。法院對虛假引述的查處速度,已從 2023 年 4 月到 2025 年 5 月期間累計 120 宗,加速至 2025 年 12 月的 660 宗。多個州正制定 AI 使用指引,要求律師披露 AI 輔助撰寫的檔案並進行人工核實。

企業與法律機構需要在效率提升與風險管理之間取得平衡。AI 在法律推理的卓越表現為產業帶來巨大機會,但 Posner 與 Saran 的研究也提醒我們,法律本質並非單純追求條文正確,而是在規則與人性之間尋找平衡。正如 Kennedy 教授在 UNC 模擬審判後反思:「當人們已經習慣將 AI 視為醫療顧問、經濟顧問與心理治療師,他們會否也接受 AI 成為裁定罪與非罪的仲裁者?」此問題的答案,將決定法律產業未來 10 年的發展方向。

(本文由 Unwire Pro 授權轉載;首圖來源:pixabay

延伸閱讀:

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》