
Apple Research 團隊近日發表了一項相當有趣的研究,探討 AI 模型是否能從聽診器錄音中推估心率,儘管這些模型原本並未針對此目的進行訓練。
針對這項研究的簡短結論是:可以。
這對廣大的用戶來說絕對是個好消息;簡而言之,研究團隊選用了六個熱門的音訊或語音基礎模型,測試它們的內部音訊表徵能否有效推估來自心音錄音(即心音圖,phonocardiogram)的心率。
(Source:arXiv)
事實上,雖然這些模型並非為醫療資料所設計,但結果仍然相當穩健。大多數模型的表現與傳統依賴手工設計音訊特徵(即人工設計音訊表示法,常用於傳統機器學習模型)的舊方法相當。
最有趣的是,蘋果自家訓練的 CLAP(Contrastive Language-Audio Pretraining)版本模型,在以 300 萬筆音訊樣本訓練後,不但優於基準模型,在多項模型比較中更獲得最佳整體表現。
測試是如何進行的?
研究使用一組公開資料集進行評估,該資料集包含超過 20 小時的真實醫院心音錄音,並由專家進行標註(這是進行高品質 AI 研究與性能評估的關鍵)。為了訓練模型,蘋果將錄音切割成 5 秒鐘的短音訊片段,並每秒向前移動一次,最終總計約產出 23,000 筆心音片段,再以此訓練神經網路將心率分類為每分鐘心跳數值。
(Source:arXiv)
有趣的是,一些結果與典型的 AI 假設相反,模型規模更大並不總是表現更好。進一步來說,模型較深層的網路層往往編碼出較少有用的心肺資訊,可能是因為其優化目標偏向語言處理。相對地,較淺層或中間層的表示效果反而更好。
(Source:arXiv)
這是該研究的關鍵洞察之一。因為蘋果現在知道了該在這些模型中「往哪裡看」,以及應使用哪些層級,以在未來(或許說當蘋果將此分析整合至其裝置時)提取最關鍵的健康訊號。
這項研究的一大發現是,傳統訊號處理法與新一代 AI 方法結合,可產生更可靠的心率估測結果。這表示,當某一種方法表現不佳時,另一種方法常可彌補其不足。簡單說,兩種方法能捕捉信號的不同面向。
展望未來,研究團隊表示,他們將持續精進模型以應用於健康領域,打造能在低功耗裝置上運作的輕量化版本,並探索其他人體相關聲音的應用潛力。
但要注意的是,這份研究並未提出任何臨床主張或產品承諾;然而若考慮到蘋果可能將這類模型整合至 iPhone、Apple Watch,甚至是依靠耳內麥克風進行主動降噪的 AirPods 時,其潛力不言可喻。
(首圖來源:科技新報)