「AlphaFold 3」要來了？DeepMind 推新蛋白質結構預測工具設計藥物

約五年前 Google 最多產 AI 研究實驗室 DeepMind 推出 AlphaFold，是能準確預測蛋白質結構的人工智慧系統。

之後DeepMind繼續改善，2020年發表功能更強大的AlphaFold版：AlphaFold 2。

而DeepMind繼續努力，10月31日宣布最新版AlphaFold出爐，不少人暫時稱之「AlphaFold 3」。

最新AlphaFold由DeepMind及衍生公司Isomorphic Labs（專注AI開發藥物）共同開發，不再局限蛋白質摺疊，還能於配體、蛋白質、核酸及翻譯後修飾等產生高精確度結構預測。Isomorphic Labs已將系統用於藥物開發。不過最新版AlphaFold 3還是預覽階段，開發進行中。

AlphaFold新版升級哪些地方？

第一大升級：預測蛋白質資料庫（PDB）多數分子結構，達原子精準度。

DeepMind說AlphaFold可預測蛋白質資料庫（廣泛使用的科學資料庫）幾乎所有分子結構。DeepMind稱模型通常以「原子精準度」產生預測。AlphaFold新版不僅可估計蛋白質形狀，還可估算其他生物分子形狀，如小分子（配體）、蛋白質、核酸（DNA和RNA）、翻譯後修飾（PTM）分子。

第二大升級：預測配體結構。

配體指不同分子與蛋白質結合，導致蛋白質功能改變。配體於細胞訊號傳導有重要作用，細胞訊號傳導是細胞相互影響的關鍵生物過程。之一是配體附著或結合蛋白質時，組合結構稱為「蛋白質─配體複合物」。研究員使用「對接」法評估複合物形狀，但限制是只有大量蛋白質─配體複合物的蛋白質組成數據可用時，才能用這種方法。

DeepMind說新版AlphaFold比「對接」法更準確預測蛋白質─配體複合物的形狀。AlphaFold新版需要資料少得多。DeepMind最新模型為蛋白質─配體結構預測設定新標準，性能更比傳統法高約20%，還能預測未進行結構表徵的全新蛋白質。AlphaFold新版可能使科學家更容易研究新發現的蛋白質─配體複合物，這些複合物的資訊很少，能幫助科學家辨識和設計潛在藥物新分子。

Isomorphic Labs公布三個案例：抗癌分子結合（PORCN）、關鍵癌症標靶的共價配體結合（KRAS）、脂質激酶變構抑制劑（PI5P4Kγ）結構預測。結果顯示，模型預測結構與案例測定結構非常接近。這引起學者和藥廠注意。有人在社群媒體表示：「設計新分子比開發工具更重要，開發類似工具的人可能要改行，畢竟設計新高價值的分子才是更好的生財之道。」

不過有人希望新版功能再提升：很多時候，最新AlphaFold相對準確率（RMSD誤差<2A)也只有50%~60%，這對藥物設計來說往往有很多問題。更進一步說，蛋白質和小分子複合物的結構預測，應結合AI和CADD兩種方法，分別基於資料庫和物理原理。

第三大升級：預測核酸、以及翻譯後修飾結構。

核酸是關鍵遺傳訊息的攜帶者，破解翻譯後修飾──即蛋白質誕生後發生的化學變化。如CasLambda與crRNA及DNA結合的結構，CasLambda共享CRISPR-Cas9系統的基因編輯能力，通常稱為「基因剪刀」，研究員可利用改變動植物和微生物DNA，CasLambda較小尺寸可能使基因編輯時更有效。

據某藥物設計公司創辦人評價：做核酸藥物的人有福了，至少有結果。不過結果是否準確，還需找有經驗的CADD（電腦輔助藥物設計）研究員評估。也有人指出「我更關心Alphafold 3是否可預測病毒蛋白質結構。AFDB（資料庫）有很多預測結構，幾乎涵蓋所有物種，但沒有病毒。且新版RNA結構預測還不太好。」

至少AlphaFold 3的表現，DeepMind和Isomorphic Labs研究員透露：

考慮到比較系統使用已知蛋白質結構為基礎，AlphaFold 3配體對接準確性優於開源分子建模模擬軟體AutoDock Vina等傳統系統。
與AlphaFold 2.3相比，AlphaFold 3預測蛋白質─蛋白質結構，抗體結合結構明顯增強。
蛋白質─核酸交互作用方面，AlphaFold 3優於其他方法，如RoseTTA2FoldNA等。
RNA結構預測，AlphaFold 3優於自動化技術，但略低於頂級CASP 15參賽者，後者涉及專家手動干預。

但DeepMind部落格文章並沒有詳細介紹新版，也沒有比較薛丁格的方法。這可能有關商業機密。從表面看，AlphaFold 3功能都有大幅提升，如果真如DeepMind所說，新模型擴展功能和性能提升可加速生物醫學突破，為疾病、基因組學、生物可再生材料、植物免疫、潛在治療標靶、藥物設計機制提供新可能性。

AlphaFold 3能否繼續開源？

AlphaFold最新版推出不到兩天，就有不少人期盼望繼續開源，「因學術界蛋白質研究空前高漲」。典型例子是OpenAI ChatGPT在2022年底亮相時席捲全球，但2022年引用最多的論文並非生成式人工智慧（AIGC），甚至不是大型科技公司論文，而是歐洲分子生物學實驗室（EMBL-EBI）和DeepMind的〈AlphaFold蛋白質結構資料庫〉，引用次數為1,331次。引用量第二同屬「蛋白質摺疊模型」──ColabFold，由馬克斯普朗克多學科科學研究所（MPG）打造，引用次數為1,138次。

儘管企業界說2022年為「生成式人工智慧年」，但學術界認為：2022年絕對是「蛋白質摺疊預測年」。

「Alphafold有三項以上專利，這不是理所當然，也不是常態。不過AF歷代版確實是生物領域最先進工具，沒有之一。」更有人指出，「閉源不是最好解決方案，為什麼多數國家都傾向用AlphaFold？我有點懷疑多數國家是否有人才和預算，開發AlphaFold和蛋白質資料庫等東西。」

DeepMind於A1lphaFold 3發表當天披露，累積超過140萬用戶（190多國）存取AlphaFold蛋白質結構資料庫，但將來「AlphaFold 3」能否真正推動藥物開發，還有待時間驗證。