蘇黎世聯邦理工學院(ETH Zurich)開發的新工具 MetaGraph,讓科學家能使用「DNA 版 Google 搜尋」,迅速搜尋龐大的公共 DNA 和 RNA 資料庫,代表基因組研究重大進展,因為 DNA 測序技術已徹底改變生物醫學研究,使辨識罕見遺傳疾病和腫瘤細胞特定突變成為可能。
越來越多科學家將測序結果公開,導致美國SRA(序列讀取檔案)和歐洲ENA(歐洲核苷酸檔案)等主要資料庫積累巨量數據,目前共有約100PB資料,相當網路可用文本的總量。
過去,搜尋這些龐大的資料庫以比較DNA序列需要大量的計算資源,這使得高效分析幾乎不可能。ETH Zurich的研究人員現在開發了一種方法,顯著縮短並簡化這個搜尋過程。MetaGraph工具能夠直接搜尋資料庫所有DNA或RNA序列的原始數據,研究員只需搜尋框輸入感興趣序列,即可幾秒鐘或幾分鐘內找到位置。
ETH Zurich計算機科學系教授貢納爾·雷奇(Gunnar Rätsch)表示:「這就像DNA版Google搜尋。」以往,研究人員必須依賴描述性後設資料來搜尋資料庫,並下載相應的資料集存取原始數據,過程既不完整又耗時費力。MetaGraph的成本相對較低,研究員指出,所有公共生物序列的表示可儲存至幾個硬碟,較大查詢成本不會超過每兆核鹼基0.74美元。
這項DNA搜尋引擎的精確性和效率,有助於加速基因研究,特別是在研究鮮有探討的病原體或新型疫情。新工具可能成為抗生素抗性研究的催化劑,幫助辨識抗性基因或能摧毀細菌的有用病毒(即噬菌體)。
10月8日發表於《自然》期刊的研究,ETH研究員展示MetaGraph運作方法:索引資料庫並以壓縮形式呈現,以複雜數學圖形結構改善結構。Rätsch教授指出,數學上是個擁有數百萬列和數兆行的巨大矩陣。ETH研究員創新處在原始數據和後設資料複雜鏈接,並以約300倍壓縮比壓縮,類似書籍摘要,保留主要故事情節和關聯,卻不損失任何重要訊息。
ETH研究員2020年首次展示MetaGraph以來,持續改進。目前可用於查詢,並提供數百萬個DNA和RNA序列集的全文搜尋,涵蓋病毒、細菌、真菌、植物、動物和人類蛋白質。全球可用序列資料集約一半已製作索引,Rätsch說其餘預定年底完成。由於MetaGraph開源,可能引起製藥公司興趣,因有大量研究數據。
Kahles博士甚至認為,這款DNA搜尋引擎未來也能個人使用:「早期連Google也不確定搜尋引擎的用途。如果DNA測序快速發展,將來可能變得很普遍,讓人們能更精確辨識陽台植物。」
- “A Google for DNA”: Scientists Launch Groundbreaking Search Engine for Genetic Code
- ‘Google for DNA’ makes genetic data searchable in seconds
- “A DNA search engine"
- From The Swiss Federal Institute of Technology in Zürich [ETH Zürich] [Eidgenössische Technische Hochschule Zürich] (CH): “A DNA search engine”
- “Google for DNA” Promises To Speed Genetic Research
- ‘Google for DNA’ brings order to biology’s big data
(首圖來源:ETH Zurich)






