
「武漢肺炎可能沒有季節性流感那麼恐怖」,這個根據美國抗體研究得出的結論,引起一片譁然。
近日,眾多統計學家、流行病學家指出,網路廣為流傳的「可靠數據」有重大缺陷──不僅樣本選擇不具足夠公平性,用於抗體測試的產品參考價值也可說是非常差。
「防護措施完全不合理」
早在當地時間 2020 年 3 月 17 日,史丹佛大學人口健康研究人員 John Ioannidis 就透過美國生物醫學新聞媒體 STAT 發聲:
COVID-19 的死亡率可能遠低於預期,因此目前某些防護政策完全不合理。
一週後,史丹佛大學衛生政策研究人員 Eran Bendavid 和 Jay Bhattacharya 於 3 月 24 日在《華爾街日報》也發表類似觀點。題為〈Is the Coronavirus as Deadly as They Say?〉(新冠病毒有他們說的那麼致命嗎?)的評論,兩人認為之前對 COVID-19 的死亡率估值(2%~4%)「有嚴重缺陷」。
到了 4 月,兩項新研究也提出類似觀點。
2020 年 4 月 17 日,史丹佛大學研究團隊(成員包括上文提到的 3 位研究人員)題為〈COVID-19 Antibody Seroprevalence in Santa Clara County, California〉(加州聖克拉拉縣新冠肺炎抗體血清流行病學調查)的論文線上發表於預印本平台 medRxiv。
該研究檢測 3,330 名成人和兒童血液抗體,其中 50 份血樣(1.5%)呈陽性。
為使試驗樣本與當地人口統計數據能互相配上,研究人員調整婦女和白人的比率,之後陽性率從 1.5% 升至 2.8%。
隨後,研究人員根據敏感性、特異性兩個標準,又重新評估,最終得到的真實患病率在 2.49%~4.16%,表明當地約 48,000~81,000 例感染,截至預印本論文線上發表時,當地確診病例僅 956 例,因此感染估計數比確診的病例高 50~85 倍。
基於此,研究人員估計武漢肺炎感染致死率(IFR)為 0.12%~0.2%,季節性流感致死率為 0.1%。
2020 年 4月 20 日,加州洛杉磯縣公共衛生部門在官網宣布,與南加州大學合作進行研究,研究成果題為〈Seroprevalence of SARS-CoV-2 Specific Antibodies Among Adults in Los Angeles County〉(洛杉磯縣成人中新型冠狀病毒特異性抗體的血清流行病學研究)。
研究人員估計,洛杉磯約 4.1% 成年人有抗體,2.8%~5.6% 成年人有新冠病毒抗體,也就是說,洛杉磯約有 221,000-442,000 成年人感染了新冠病毒,這個數據比 4 月初報告的 7,994 例確診病例數高 28~55 倍。與聖克拉拉研究一樣,這項研究表明 COVID-19 感染致死率處於 0.3%~0.13%,接近季節性流感致死率。
兩大嚴重缺陷
這兩項研究透過評估 COVID-19 分別在美國加州聖克拉拉和洛杉磯的真實傳播情況──出發點毫無疑問正確。經由研究,確定武漢肺炎疫情在當地的真實感染程度,自然有利於推出政策、措施,努力控制疫情傳播,同時也更能評估疾病的嚴重程度與死亡率。
由於美國的診斷測試非常有限,許多病例症狀輕微、甚至無症狀感染,因此研究人員預計聖克拉拉和洛杉磯的新冠病毒感染人數都超出預期,這一點沒有爭議。
真正有爭議的是──研究者表示,COVID-19 的致命性遠不及預期,而由於死亡人數增長變化不大,COVID-19 與季節性流感的死亡率相近;且 COVID-19 可能沒有季節性流感那麼致命,目前採取的緩解措施無濟於事,沒有必要。
由於加州洛杉磯縣公共衛生部門提供的數據不多,也幾乎沒有披露統計和方法細節,因此學界主要分析的是聖克拉拉研究,不過多數人認為洛杉磯研究也可能有相似缺陷。
先不論上述結論,學術界認為,聖克拉拉研究有基本的計算錯誤和選取樣本、統計數據偏差,主要有兩方面問題:
第一,聖克拉拉研究樣本選擇不具足夠公平性:
- 研究是透過 Facebook 廣告召集志願者,這就把測試樣本限定為 Facebook 用戶。
- 樣本檢測也都是透過設置開車直通測試站點進行(如下圖),這就把測試樣本僅限定為方便自駕的人群。
- 志願者透過自薦方式參與測驗,招募廣告也有一種「參與檢測就能知道您的健康狀況,讓您和家人更安心」意味,所以積極參與測驗的志願者可能都迫切想知道自己是否感染病毒,這可能也會增加陽性比例,所以武漢肺炎的潛在確診數將比實際更多。
更有甚者,據外媒 Buzzfeed News 披露,論文作者之一 Jay Bhattacharya 的妻子之前透過郵件,利用高中學生名單招募學生家長參與實驗,這可能會進一步使結果產生偏差。而研究團隊對此不予置評。
第二,學界最大的擔憂也許是,研究人員用於兩項研究的抗體測試並不準確。
由於武漢肺炎疫情肆虐,美國食品藥品監督管理局(FDA)允許廠商在沒有常規審查的情況下,在市場出售檢驗產品,研究團隊使用的 Premier 檢驗產品便是其一,並未經過徹底的準確性審查。FDA 之前甚至警告過相關人士要注意局限性。
Premier 之前公開陽性、陰性樣品測試從而確定敏感性和特異性的方法,但研究人員在史丹佛大學自己測試:
- 據 Premier 的方法,檢驗產品正確辨識共 37 個已知陽性樣本的 25 個陽性樣本。史丹佛大學的測試中,產品正確辨識 160 個已知陽性樣本的 153 個,因此敏感度最有可能約為 80%(可能在 72.1%~87%)。
- 據 Premier 的方法,檢驗產品將 30 個已知陰性樣本全部正確辨識。史丹佛大學的測試中,產品只能正確辨識 371 個已知陰性樣品的 369 個,因此認為特異性約 99.5%(可能在 98.3%~99.9%)。
根據特異性估計,只有 0.5% 檢測為假陽性,但產品仍有高達 1.7% 假陽性的可能性。如此說來,上述聖克拉拉研究得到的 1.5% 陽性率(3,330 份樣本發現 50 例陽性)意味著測出的陽性有可能全部都是假陽性,就算不是全部,參考價值也可以說非常差。
面對統計方法的質疑聲,研究團隊表示,目前正在重新統計分析,並將很快發表結果。
「作者欠我們一個道歉」
這兩項研究目前在美國學術界飽受批評,從 Twitter 到部落格都不乏爭議。
哥倫比亞大學統計學家 Andrew Gelman 以很長的篇幅提出聖克拉拉研究的問題,並在部落格直言:
我認為論文作者應該向我們道歉,因為讀這篇論文本質上就是在浪費時間和精力。主要賣點是一些數字,而這些數字都是錯誤的統計結果。如果是無意搞砸,那不需要道歉;但犯了原本可以避免的錯,就必須道歉。
18 世紀英國統計學家 Thomas Bayes 將歸納推理法用於概率論基礎理論,創立了貝葉斯統計理論,對於統計決策函數、統計推斷、統計的估算等貢獻不小。
瑞士巴塞爾大學(University of Basel)計算系統生物學家 Erik van Nimwegen 實驗室更在 Twitter 稱:
貝葉斯的墓碑下傳來哭聲。
Loud sobbing reported from under reverend Bayes’ grave stone.
Seriously, I might use this as an example in my class to show how NOT to do statistics. Note that the CI on specificity includes false positive rates larger than the observed fraction of positives. https://t.co/SV7VwjU5yw— NimwegenLab (@NimwegenLab) April 17, 2020
美國舊金山州立大學進化生物學家 Pleuni Pennings 針對聖克拉拉研究,在部落格犀利地指出:
我們常說,非常主張需要非常證據。然而,這篇論文的主張很獨特,證據卻不是。而且,即使一篇研究論文出自名校,也不能保證這項研究就很可靠。
值得注意的是,學術論文在正式發表前,先要發表預印本,經過嚴格的同行評審流程後才正式發表,因此,預印本的研究結論不具完全可信度(即便是正式發表的論文也可能有爭議)。
特殊時期湧現的研究,很可能會讓我們無意間就掉進陷阱。對此,哈佛大學流行病學家 William Hanage 也建議:
不要輕信所謂的專業數據,要注重數據來源,辨別相關論文究竟是預印本、還是在知名期刊正式發表。