Google 研究發現實驗室超精準的醫療 AI,真實世界卻不是那回事

作者 | 發布日期 2020 年 04 月 29 日 8:00 | 分類 AI 人工智慧 , Google , 醫療科技 Telegram share ! follow us in feedly


武漢肺炎(COVID-19;新冠肺炎)大流行讓世界許多國家的醫療資源達到臨界點,也因如此,有許多人希望 AI 人工智慧加快患者篩檢速度,以減輕臨床工作人員的壓力。但 Google Health 進行的「首次檢視深度學習在實際臨床環境之影響」研究表明,即使最準確的 AI,如果不根據工作的臨床環境量身訂做調整,就會使情況更糟。

在臨床環境部署 AI 的現有規則(例如美國 FDA 許可標準或歐洲 CE 標章)主要關注重點在於準確性。目前對 AI 必須改善患者預後狀況並沒有明確要求,這主要是因為此類試驗尚未進行。但這需要改變,Google Health 使用者體驗(UX)研究人員 Emma Beede 表示:「AI 工具廣泛部署及使用前,我們必須了解工具將如何在特定環境(尤其是醫療照護領域)為人們服務。」

Goolge 首次在泰國測試醫療 AI 準確性,部署檢測糖尿病視網膜病變的 AI 系統

Google 第一次在真實環境測試工具的機會來自泰國。泰國衛生部設定年度目標,要對 60% 糖尿病患者篩檢糖尿病視網膜病變,如果不及早發現,此病可能導致失明。由於泰國約有 450 萬名患者,但卻只有 200 家視網膜專科診所(患者與診所比率約為美國 2 倍),因此很難達成目標。Google 已通過 CE 認證(適用泰國),但仍在等待 FDA 批准。因此,為了解 AI 能否有幫助,Beede 和同事為泰國 11 間診所配備可經訓練發現糖尿病患者眼部疾病跡象的深度學習系統。

泰國使用的系統中,護士會在檢查時為患者眼睛拍照,然後將照片送到其他地方的專科醫生檢查,此過程可能需要長達 10 週。Google Health 開發的 AI 可從眼睛掃描辨識出糖尿病視網膜病變的徵象,準確率超過 90%(團隊認為此準確率已達「人類專家等級」水準),且原則上可在 10 分鐘內得出結果。系統透過分析圖像來判定病症,例如血管阻塞或滲漏。

這聽起來頗讓人印象深刻,但實驗室準確性評估就到此為止。上述系統並沒有透露 AI 在複雜混亂的現實環境表現如何,這就是 Google Health 團隊想搞清楚、弄明白的地方。過去幾個月,他們觀察護理師如何掃描眼部,並詢問使用新系統的體驗感受,但護理師的體驗結果並不完全都是好的。

如果運行良好,AI 確實可以加快速度。但有時根本無法有結果。就和大多數影像辨識系統一樣,深度學習模型經過高品質掃描訓練;為了確保準確性,設計上會拒絕低於一定品質閾值的圖像。但由於護士每小時掃描數十名患者,並經常在光線不足的情況下拍照,所以超過五分之一照片被拒絕。

凡是照片被踢出系統的患者會被告知必須改天去另一家診所看醫生。如果他們無法請假或沒有車,就會非常不方便。護理師感到很沮喪,尤其是被拒絕的掃描沒有顯示任何疾病跡象,且沒必要後續預約時特別感到無力,甚至有時會浪費時間嘗試重新拍攝或編輯被 AI 拒絕的照片。

網路基礎設施速度也成為關鍵,實驗室準確性只是第一步

由於系統必須將照片上傳到雲端處理,但一些診所的網際網路連線有問題造成延遲。「病患想要立即看到結果,但網路速度很慢,病患因此抱怨連連,」一位護理師表示:「他們從早上 6 點開始等,最初 2 小時我們只能篩檢 10 位病患。」

Google Health 小組正在與當地醫務人員一起合作設計新工作流程。例如,護理師可訓練在不確定情況下自行判斷。同時還可調整模型,以便更妥善處理不完美的照片。

「對於任何有興趣親自動手並在真實環境執行 AI 解決方案的人來說,都是至關重要的研究。」加拿大滑鐵盧大學(University of Waterloo)從事醫療成像 AI 研究的 Hamid Tizhoosh 表示。Tizhoosh 一直對急於發表因應 Covid-19 的 AI 工具表示不滿。他指出,在某些情況下,很多工具都是由沒有醫療專業知識的團隊開發和發表。他認為 Google 的研究及時提醒大眾,在實驗室建立準確性只是第一步。

(首圖來源:shutterstock)