洞查數據背後,MSRA 推出武漢肺炎數據分析網站

作者 | 發布日期 2020 年 05 月 04 日 7:45 | 分類 Microsoft , 生物科技 , 網路 Telegram share ! follow us in feedly


這場疫情再次拉近大眾和科學家的距離。疫情之下,研究人員每次探索與發現,都成為大眾關注的焦點和政策制定的依據。獲取最新科研資訊,對建立更立體、客觀的肺炎疫情認知,有著關鍵意義。

近日,微軟亞洲研究院(Microsoft Research Asia,MSRA)推出了一個新冠肺炎數據分析網站 COVID Insights,旨在透過較為全面的疫情數據,達到支援學術研究和向公眾科普的目的。

COVID Insights 網站基於計算生物學、數據分析等領域的專業知識和研究經驗,使用約翰霍普金斯大學、美國疾病控制與預防中心、GISAID 等機構的官方數據,主要分為感染數據分析、基因組和蛋白質結構、研究趨勢三大類別。

跨國家或地區比較傳播動態

哪些地區的疫情發展趨勢比較接近?有些國家的數據降下來,做法值得參考嗎?

實質上,「感染數據分析」板塊對這類問題有答案──透過微軟亞洲研究院對 COVID-19 數據的分析,流行病學參數對特定國家與地區的疾病傳播動態的影響便一目了然。

例如,澳洲 2 月 3 日至 4 月 26 日的疫情傳播趨勢與冰島 2 月 1 日至 4 月 17 日的趨勢相似度為 56%,因此冰島便可借鑑澳洲的疫情防控措施。

而透過移動游標位置,將時間限定在 3 月 22 日至 4 月 15 日,可發現這段時期澳洲的傳播趨勢與南韓在 2 月 29 日至 3 月 17 日的趨勢相似度為 80%,因此澳洲便可參考南韓 3 月中下旬的防疫措施。

眾所周知,當前美國武漢肺炎確診人數逼近 100 萬,若利用這個功能,可看到 3 月 20 日至 4 月 26 日(目前數據只更新至 4 月 26 日)美國的疫情發展趨勢和兩週前的伊朗有 75% 相似度,那麼此時參考對方的措施不失為可行方案。

據了解,這個功能的數據集來源於約翰霍普金斯大學系統科學與工程中心公布的武漢肺炎疫情數據。

SARS-CoV-2 的病毒學分析結果

相比上述類別,「基因組和蛋白質結構」則比較抽象,展示  SARS-CoV-2(新型冠狀病毒)的病毒學分析結果,主要將目光放在 SARS-CoV-2 病毒本身,主要包括以下兩個功能:

第一,基因組與蛋白質結構。

外媒「新冠病毒來自武漢」報導讓中國政府大聲抗議。而早在 2020 年 2 月 20 日,中國科學院西雙版納熱帶植物園就曾發布研究成果,聲稱武漢華南海鮮市場的新型冠狀病毒是從其他地方傳入,於是中國國內又出現新冠病毒「國外起源論」。

這個研究有一幅非常複雜的圖,反映出病毒基因組變異的問題。就病毒基因組變異而言,如今全球已經有了很多的研究數據。

根據網站介紹,微軟亞洲研究院從全球流感序列資料庫 GISAID 下載 SARS-CoV-2 基因組數據,以病毒株 Wuhan-Hu-1 為參考序列,確定各病毒序列發生變異的氨基酸及位置。

因此,透過下拉列表選定某個大洲,能直覺看到特定核酸片段發生變異的氨基酸數目、地區分布與變異時間線。

同時,網站經 SARS-CoV-2 病毒核酸序列轉化得到的蛋白質三維結構,也為相關研究提供參考。

第二,與其他冠狀病毒比較。

全球肆虐的 SARS-CoV-2 病毒是目前已知第 7 種可感染人的冠狀病毒,其餘 6 種包括不陌生的 SARS-CoV(引發「SARS」的病毒)和 MERS-CoV(引發中東呼吸症候群冠狀病毒感染症的病毒)。

除了拿 SARS-CoV-2 與 SARS-CoV、MERS-CoV 比較,COVID Insights 網站還有 SARS-CoV 和另外兩種病毒的比較。

另兩種病毒 Bat-CoV 和 Pangolin-CoV 分別來自新冠病毒潛在中間宿主的熱門人選:中華菊頭蝠和馬來穿山甲。

根據 COVID Insights 網站,Bat-CoV、Pangolin-CoV、SARS-CoV、MERS-CoV 與 SARS-CoV-2 的相似度依次遞減,分別為 96%、90%、79%、49%。

全球武漢肺炎研究趨勢

2020 年 1 月 1 日至 4 月 22 日,眾多領域科研人員都做了非常多研究。微軟亞洲研究院經由統計、整合論文開放獲取資料庫 COVID-19 Open Research Dataset 的數據,根據不同時間段(按週統計),得出流行病學、社會科學、 病毒學、診斷學 4 領域的武漢肺炎研究趨勢詞雲。

因此可發現,2 月 26 日至 3 月 4 日那週,流行病學研究的「transmission」(傳播)出現頻率較高。

4 月 8~15 日那週,社會科學研究的「number」(數字)成為關鍵詞。

COVID Insights 網站也將流行病學、社會科學、 病毒學、診斷學 4 領域的高引用論文列出,這樣一來,大眾某種程度降低受低品質論文誤導的風險。

這段時間以來,疫情相關的學術論文呈現爆發式增長,低品質研究論文氾濫也相當嚴重。4 月 23 日,卡內基美隆大學道德與政策中心主任 Alex John London 和麥吉爾大學生物醫學倫理部教授兼主任 Jonathan Kimmelman 也在《科學》雜誌發表文章呼籲:

不應以 COVID-19 疫情爆發的緊迫性為藉口,在病毒研究和疫苗研發等方面降低研究標準。

可見,雖然 COVID Insights 網站目前數據並非特別全面,但的確在加速優質研究資訊的互通互享發揮重要作用,正如比爾蓋茲所說:

這次疫情是現代社會第一場真正意義的大流行病。這就像一場世界大戰,不同的是,這次我們在同一條戰線。

(本文由 雷鋒網 授權轉載;首圖來源:Unsplash

延伸閱讀: