瑞典前列腺 AI 研究成果登《刺胳針‧腫瘤》期刊，可媲美 23 名病理學家？

近日，瑞典研究團隊發表在《刺胳針‧腫瘤》期刊的前列腺癌 AI 輔助診斷研究論文正式公布。

科研人員發現，AI 能準確從活檢體測出前列腺癌，進而加快診斷速度並降低醫療資源成本。

目前，全球各地前列腺活檢人數增加與泌尿病理學家短缺，為病理科帶來巨大壓力。此外，前列腺癌的高變異性也導致高頻率出現過度治療和治療不足兩種情況。

為了緩解問題，瑞典研究團隊開發具臨床可接受準確性的人工智慧系統，用於前列腺癌偵測、定位和格里森分級（Gleason，受廣泛採用的前列腺癌組織學分級制）。

據論文介紹，AI 系統可接受訓練以檢出前列腺穿刺活檢樣本的癌症並分級，在部分數據集的特定問題診斷表現優秀。

研究指出，人工智慧技術可透過減少評估良性活檢體，並透過自動化測量癌症長度陽性活組織檢查核心，以及提供第二種意見，減輕腫瘤學家的工作量。

重要醫學 AI 成果

瑞典卡羅林斯卡學院醫學流行病學系副教授 Martin Eklund 表示：「我們的 AI 工具可某種程度減少泌尿科病理學家的工作量，使他們專注最困難的病例。」

2012 年 5 月至 2014 年 12 月基於瑞典前瞻性和人群的 STHLM3 診斷研究，瑞典研究團隊從 976 名隨機年齡在 50~69 歲的參與者，數位化 6,682 張針核活檢切片，並從 93 名研究外的男性數位化 271 張切片。

隨後影像用來訓練評估前列腺活檢的深層神經網路。

透過預測來自 STHLM3 的 246 名男性 1,631 例活檢，以及來自 73 名男性 330 例活檢的外部驗證數據集，獨立測試數據集的惡性組織存在、程度和 Gleason 分級評估這些網路。此外，還評估國際泌尿病理學會 23 名經驗豐富的泌尿病理學家對 87 例活檢的分級表現。透過受試者的工作特徵和腫瘤範圍預測，將預測的腫瘤長度與報告的病理學家測量值相關聯，評估認證效能，並使用 Cohen’s kappa 量化 AI 系統和泌尿病理學專家的評分一致性。

結果是 AI 在接收器工作特徴曲線下獲得一個區域，在 0.997（95% CI 0·994~0·999）下可區分獨立測試數據集的良性（n = 910）和惡性（n = 721）活檢核心和外部驗證數據集的 0.986（0.972~0.996）（良性 n = 108，惡性 n = 222）。

由 AI 預測並由報告病理學家指定癌症長度的相關性，對獨立測試數據集為 0.96（95% CI 0.95~0.97），對獨立測試數據集為 0.87（0.84~0.90）。外部驗證數據集對 Gleason 等級，AI 平均成對 kappa 為 0.62，這在專家病理學家的相應值範圍內（0.60~0.73）。

瑞典團隊介紹，從上述數據可看出，用 AI 系統偵測和分級前列腺穿刺活檢樣品的癌症，在部分場合等級可與前列腺病理學專家相媲美。

臨床應用可透過減少評估良性活組織檢查，以及自動化在陽性活檢核心中測量癌症長度的工作來減少病理學工作量。具專家級評分效能的 AI 系統可能會產生第二種輔助決策意見，有助標準化評分，並在世界部分地區提供病理學專業知識。

此研究也是近期繼 Google 乳腺癌 AI 論文之後，學術界發表的第二篇重要醫學 AI 成果。

1 月 2 日，Google Health 聯合多間機構在《Nature》發表一篇論文，介紹新型深度學習標靶影像系統。據 Google 說法，此系統與之前模型相比，有效減少乳腺癌錯誤辨識或遺漏，將乳腺癌偵測的假陽性率降低 5.7%，假陰性率也降低 9.4%，並號稱擊敗了 6 名放射科醫生。

Google 對成果過於誇大的公關措辭，引來圖靈獎得主 Yann Lecun 及中美多位學者在社交媒體炮轟。

（本文由雷鋒網授權轉載；首圖來源：卡羅林斯卡學院）