深度學習研究公司 DeepMind 發表世界首個目前最全、最高品質的人類蛋白質組結構預測圖庫,論文發表於權威期刊《Nature》。
人類蛋白質組(Proteome)就是人類所有蛋白質,類似人類基因組包含所有人類基因。破譯人類蛋白質結構(捲曲形狀)對生物學、醫學至生命科學有無法估量的深遠影響。
這是一本名副其實的世界蛋白質萬年曆。
關注深度學習領域的讀者可能知道,DeepMind多年前專為預測蛋白質結構開發了AlphaFold演算法。上週DeepMind剛公開AlphaFold 2系統論文和原始代碼。
AlphaFold 2被譽為「蛋白質摺疊結構預測」長達50年重要問題的最優解,將準確性平均分提升到92.4(百分制),誤差不超過一個原子大小。Deepmind的蛋白質組預測圖,正是基於這項技術。
感謝AlphaFold團隊長達5年的不懈努力,以及合作夥伴的幫助,我們現在終於可將關鍵資訊公之於眾。
(Source:DeepMind,下同)
DeepMind人類蛋白質組預測圖包括:
- 人類約2萬種蛋白質98.5%蛋白質。
- 20種科研常用的重要生物體(如小鼠、果蠅、大腸桿菌等)蛋白質。
DeepMind還和歐洲生物資訊研究所(EMBL-EBI)合作,將這些蛋白質結構預測圖整理成一個。於資料庫輸入蛋白質編號/名字/基因或生物名,即可快速查找到對應蛋白質,並查看AlphaFold 2預測的高準確度摺疊圖。
如下圖顯示是PE-PGRS family protein PE_PGRS33。這是與結核病相關的蛋白質。資料庫包含蛋白家族和基因資訊等介紹,並提供拖曳互動的3D結構圖,顏色越冷部分,表示AlphaFold預測可信度越高。
(Source:APDB)
DeepMind還宣布接下來幾個月,團隊將繼續擴大PDB內容,涵蓋目前已知超過1億種蛋白質大部分。想了解一個蛋白質的樣貌,有多種視圖可用:
- 空間填充圖,方便看到蛋白質分子結構。
- 飄帶圖,準確顯示蛋白質的α-氨基酸分子鏈條摺疊結構。
- 表面圖,可看到蛋白質與水分子接觸的表面。
這次的蛋白質摺疊結構就是透過飄帶圖表示。
為什麼了解和預測蛋白質摺疊結構很重要?
蛋白質是複雜的「生物機器」。每種蛋白質都有獨特功能:有的負責運輸代謝物質,如血紅蛋白;有的負責加速生物化學反應,如澱粉酶;有的負責調節新陳代謝,如胰島素;有的直接構成生物機體組織,如膠原蛋白等。
雖然功能多種多樣,但所有已知蛋白質結構都是由21種已知氨基酸構成。氨基酸也只含碳、氫、氧、氮、硫和硒六種元素。但氨基酸在鏈條上的排列組合、鏈條摺疊方式,以及最終摺疊結構,決定蛋白質的最終功能。
因此準確了解蛋白質的摺疊結構對生命科學、環境科學等人類重要課題都十分關鍵。
▲ AlphaFold預測的果蠅Q9VZS7蛋白質結構,顏色越暖的部分準確度越低,橙紅色代表該部分每殘基準確度(pLDDT)分值低於50。
加深人類對物種蛋白質組的了解
蛋白質研究的頂級機構和人士,對這次DeepMind發表內容極高評價。樸茲茅斯大學生物酶技術創新中心主任John McGeehan教授表示,「過去我們花費數月甚至數年的工作,現在AlphaFold只用一個週末就可做到。」
「被忽視疾病藥物研發倡議」(DNDI)Ben Perry相信,AlphaFold將開啟新研究領域,「我們非常興奮看到,最尖端的AI技術聚焦幫助最貧困的人口。」
「我們相信,這專案代表截至目前AI對推進科學知識進步最有價值的貢獻,並且是AI能幫助人類的優秀案例。」DeepMind部落格寫道,「我們的發現將助力生物學和醫學未來更多的新發現。」