約五年前 Google 最多產 AI 研究實驗室 DeepMind 推出 AlphaFold,是能準確預測蛋白質結構的人工智慧系統。
之後DeepMind繼續改善,2020年發表功能更強大的AlphaFold版:AlphaFold 2。
而DeepMind繼續努力,10月31日宣布最新版AlphaFold出爐,不少人暫時稱之「AlphaFold 3」。
最新AlphaFold由DeepMind及衍生公司Isomorphic Labs(專注AI開發藥物)共同開發,不再局限蛋白質摺疊,還能於配體、蛋白質、核酸及翻譯後修飾等產生高精確度結構預測。Isomorphic Labs已將系統用於藥物開發。不過最新版AlphaFold 3還是預覽階段,開發進行中。
AlphaFold新版升級哪些地方?
第一大升級:預測蛋白質資料庫(PDB)多數分子結構,達原子精準度。
DeepMind說AlphaFold可預測蛋白質資料庫(廣泛使用的科學資料庫)幾乎所有分子結構。DeepMind稱模型通常以「原子精準度」產生預測。AlphaFold新版不僅可估計蛋白質形狀,還可估算其他生物分子形狀,如小分子(配體)、蛋白質、核酸(DNA和RNA)、翻譯後修飾(PTM)分子。
第二大升級:預測配體結構。
配體指不同分子與蛋白質結合,導致蛋白質功能改變。配體於細胞訊號傳導有重要作用,細胞訊號傳導是細胞相互影響的關鍵生物過程。之一是配體附著或結合蛋白質時,組合結構稱為「蛋白質─配體複合物」。研究員使用「對接」法評估複合物形狀,但限制是只有大量蛋白質─配體複合物的蛋白質組成數據可用時,才能用這種方法。
DeepMind說新版AlphaFold比「對接」法更準確預測蛋白質─配體複合物的形狀。AlphaFold新版需要資料少得多。DeepMind最新模型為蛋白質─配體結構預測設定新標準,性能更比傳統法高約20%,還能預測未進行結構表徵的全新蛋白質。AlphaFold新版可能使科學家更容易研究新發現的蛋白質─配體複合物,這些複合物的資訊很少,能幫助科學家辨識和設計潛在藥物新分子。
Isomorphic Labs公布三個案例:抗癌分子結合(PORCN)、關鍵癌症標靶的共價配體結合(KRAS)、脂質激酶變構抑制劑(PI5P4Kγ)結構預測。結果顯示,模型預測結構與案例測定結構非常接近。這引起學者和藥廠注意。有人在社群媒體表示:「設計新分子比開發工具更重要,開發類似工具的人可能要改行,畢竟設計新高價值的分子才是更好的生財之道。」
不過有人希望新版功能再提升:很多時候,最新AlphaFold相對準確率(RMSD誤差<2A)也只有50%~60%,這對藥物設計來說往往有很多問題。更進一步說,蛋白質和小分子複合物的結構預測,應結合AI和CADD兩種方法,分別基於資料庫和物理原理。
第三大升級:預測核酸、以及翻譯後修飾結構。
核酸是關鍵遺傳訊息的攜帶者,破解翻譯後修飾──即蛋白質誕生後發生的化學變化。如CasLambda與crRNA及DNA結合的結構,CasLambda共享CRISPR-Cas9系統的基因編輯能力,通常稱為「基因剪刀」,研究員可利用改變動植物和微生物DNA,CasLambda較小尺寸可能使基因編輯時更有效。
據某藥物設計公司創辦人評價:做核酸藥物的人有福了,至少有結果。不過結果是否準確,還需找有經驗的CADD(電腦輔助藥物設計)研究員評估。也有人指出「我更關心Alphafold 3是否可預測病毒蛋白質結構。AFDB(資料庫)有很多預測結構,幾乎涵蓋所有物種,但沒有病毒。且新版RNA結構預測還不太好。」
至少AlphaFold 3的表現,DeepMind和Isomorphic Labs研究員透露:
- 考慮到比較系統使用已知蛋白質結構為基礎,AlphaFold 3配體對接準確性優於開源分子建模模擬軟體AutoDock Vina等傳統系統。
- 與AlphaFold 2.3相比,AlphaFold 3預測蛋白質─蛋白質結構,抗體結合結構明顯增強。
- 蛋白質─核酸交互作用方面,AlphaFold 3優於其他方法,如RoseTTA2FoldNA等。
- RNA結構預測,AlphaFold 3優於自動化技術,但略低於頂級CASP 15參賽者,後者涉及專家手動干預。
但DeepMind部落格文章並沒有詳細介紹新版,也沒有比較薛丁格的方法。這可能有關商業機密。從表面看,AlphaFold 3功能都有大幅提升,如果真如DeepMind所說,新模型擴展功能和性能提升可加速生物醫學突破,為疾病、基因組學、生物可再生材料、植物免疫、潛在治療標靶、藥物設計機制提供新可能性。
AlphaFold 3能否繼續開源?
AlphaFold最新版推出不到兩天,就有不少人期盼望繼續開源,「因學術界蛋白質研究空前高漲」。典型例子是OpenAI ChatGPT在2022年底亮相時席捲全球,但2022年引用最多的論文並非生成式人工智慧(AIGC),甚至不是大型科技公司論文,而是歐洲分子生物學實驗室(EMBL-EBI)和DeepMind的〈AlphaFold蛋白質結構資料庫〉,引用次數為1,331次。引用量第二同屬「蛋白質摺疊模型」──ColabFold,由馬克斯普朗克多學科科學研究所(MPG)打造,引用次數為1,138次。
儘管企業界說2022年為「生成式人工智慧年」,但學術界認為:2022年絕對是「蛋白質摺疊預測年」。
「Alphafold有三項以上專利,這不是理所當然,也不是常態。不過AF歷代版確實是生物領域最先進工具,沒有之一。」更有人指出,「閉源不是最好解決方案,為什麼多數國家都傾向用AlphaFold?我有點懷疑多數國家是否有人才和預算,開發AlphaFold和蛋白質資料庫等東西。」
DeepMind於A1lphaFold 3發表當天披露,累積超過140萬用戶(190多國)存取AlphaFold蛋白質結構資料庫,但將來「AlphaFold 3」能否真正推動藥物開發,還有待時間驗證。
(本文由 雷鋒網 授權轉載;首圖來源:Buildington, CC0, via Wikimedia Commons)