照亮整個蛋白質宇宙:DeepMind「順手」放大招,要一舉攻下漸凍人症

作者 | 發布日期 2022 年 08 月 03 日 7:30 | 分類 AI 人工智慧 , Google , 生物科技 line share follow us in feedly line share
照亮整個蛋白質宇宙:DeepMind「順手」放大招,要一舉攻下漸凍人症


罕見疾病漸凍人症陪伴傳奇物理學家史蒂芬·霍金終生,也困擾醫界和生物學家數十年。而答案可能就是核孔蛋白(neucleoporins)。

學者認為漸凍人症和核孔蛋白組成的核孔複合體有強關聯,複合體控制細胞核與細胞質的物質傳遞,如能更瞭解核孔蛋白,就有可能找到根治漸凍人症的答案。

然而想找到答案不容易:核孔複合體由超過1千條的30多種核孔蛋白組成,以極複雜的方式相互交錯,更別提單條蛋白大小可能只有數奈米,即便用最先進顯微技術也很難觀察,造成生物學家極大障礙。

2019年加入哈佛大學吳皓實驗室的Pietro Fontana,就分配到核孔蛋白這天文級難題。他不是第一個想克服的人,前人已用盡各種手段,付出數十年心血卻無功而返,但Fontana有強棒在手──AlphaFold,知名人工智慧公司DeepMind開發的蛋白質預測模型。

沒多久在AlphaFold幫助下,Fontana就取得關鍵進展:不僅成功預測沒探究清楚的核孔蛋白結構,還首次繪出核孔複合體胞質環(cytoplasmic ring)模型圖,研究論文剛登上《科學》期刊。

▲ AlphaFold協助預測的核孔蛋白組成的胞質環。(Source:論文

此歷史性生物資訊學突破,為治癒漸凍人症等罕見、難治神經退化性疾病找到一絲希望。「我認為AlphaFold完全改變結構生物學」,Fontana表示。但這麼重要的發現和研究,對AlphaFold來說只像「順手幫一下」。

蛋白質資料庫千倍擴容,成為「蛋白質宇宙」

截至目前地球已知生物共2.14億種蛋白質,AlphaFold都預測出結構了。DeepMind進展速度之快,AlphaFold效果之好,遠超過「令人震驚」程度。去年首次發表並開源AlphaFold模型,當時只預測出人類98%及約1萬種生物部分蛋白質,條數只有100萬左右,就入選《自然》年度十大科學事件。一年後資料庫竟然擴充200倍:

更厲害的是,資料庫涵蓋動物、植物、細菌、真菌等幾乎所有科學有紀錄的約100萬物種。80%預測結構結果可信度足夠支援研究實驗,更有35%結果可信度高。

此次AlphaFold放出的「全量蛋白質結構預測資料庫」,和之前人類手工測量的資料庫相比,內容相差1千倍,以前標準實驗測量的蛋白質結構,都存在「蛋白質數據銀行」(PDB)資料庫,條目只有19萬。這簡直是為結構生物學、生物資訊學、醫藥開發等領域送上驚天大禮──更別提資料庫完全免費、開放、可搜尋。

最新版AlphaFold資料庫,超過99%蛋白質結構之前都是未知。現在人類對蛋白質結構的知識突然200倍增長,可想而知更多生物學和醫學進展將更頻繁,許多肆虐幾百年的疾病有望「根治」,許多延續幾十年的生物學難題也將破解。

The Scripps Research Institute創始人Eric Topol直言:

AlphaFold照亮幾乎整個蛋白質宇宙。

幾分鐘破解世界級生物難題

很多細菌能讓人生病,為了壓制細菌,人類發明抗生素。然而細菌是微生物,能自己進化獲得抵抗抗生素的能力,結果就是人們以為「無害」、已克服的病原體突然又成為人類大敵。如大痲瘋,接種疫苗只有有限預防效果,現在仍在全球傳播,感染數十萬人,且需長期吃藥治療。

美國科羅拉多大學博爾德分校兩位生物學家Marcelo Sousa和Megan Mitchel,希望以治本方式解決抗生素抗藥性。生物化學系教授Marcelo Sousa透露,研究目標是定位產生抗藥性的酶鏈,了解酶的蛋白質結構,然後「定點精準打擊」。

然而分離和提出酶非常困難,就算提得出來,研究者想了解結構更難上加難。預測蛋白質結構過去需透過X射線晶體衍射、冷凍電鏡等實驗室技術,基本上只能人工進行,Sousa等人已花費十年研究,不知道還要多久──如果AlphaFold沒出現。

▲ Marcelo Sousa和Megan Mitchel。

透過AlphaFold基準預測模型,結合團隊從提出酶晶體的數據,酶序列和結構預測大獲成功。AlphaFold幫助下,不僅預測速度大提升,結果準確度更十分精確。

「這難題花了我們十年都做不到,現在居然只花30分鐘就解決了!」Sousa對AlphaFold讚不絕口。接下來團隊可繼續透過AlphaFold預測結果,研究這條酶鏈在抗藥性形成扮演的角色,並找到突破點。「我們已了解這鏈中各種酶,現在我們只要打破其中一環,就可破解整個抗藥性難題。」Mitchel表示。

Sousa則說AlphaFold將對新藥發現有非常大的積極效果。

▲ Marcelo Sousa展示AlphaFold預測的目標酶蛋白質結構。

這只是AlphaFold幫忙解決的「小事」之一。DeepMind透露,全球有超過50萬研究人員使用AlphaFold資料庫,前所未有的蛋白質結構預測數據用於尋找漸凍人等不治之症的療法、徹底解決大痲瘋和血吸蟲病肆虐、發現新藥、保護農業、開發高效降解塑膠的殺手鐧等。

「希望資料庫幫助更多科學家,並在科學探索開啟全新道路」,DeepMind創始人兼CEO Demis Hassabis表示,「就像數學是物理學的完美語言,我們相信AI是應付生物學複雜問題的完美工具」。

附錄:AlphaFold大事記

2016年:一隊成為明星,另一隊開始組建

當年DeepMind圍棋AI程式AlphaGo擊敗南韓知名職業棋士李世乭,關鍵性事件證明DeepMind AI技術夠先進,可能解決其他科學挑戰,如蛋白質摺疊。不久後DeepMind就成立小團隊,嘗試使用深度神經網路預測蛋白質結構。

2018年:AlphaFold性能首次公開測試

AlphaFold性能在CASP13蛋白質結構預測比賽第一,隨後發表於《自然》期刊。 DeepMind擴編AlphaFold團隊,正式開始打造新AI系統。

2020年:解決生物學50年難題

AlphaFold在CASP14蛋白質結構預測比賽再次以三倍優勢勝出,且準確性接近X射線晶體衍射、冷凍電鏡等標準實驗法。這次比賽AlphaFold取得CASP主辦方認定,破解50年未解的蛋白質摺疊難題。《自然》直接評價「改變一切」。

(Source:CASP)

12月Demis Hassabis和AlphaFold專案主管John Jumper承諾,開源AlphaFold。

2021年:邊創造歷史邊全面開源

DeepMind去年兌現開源AlphaFold的承諾。《自然》論文公開AlphaFold研發過程,並開放原始碼,提供60頁詳細補充資料。

7月DeepMind再次發表論文,展示AlphaFold成功預測全部人類蛋白質組,讓已知高確信度人類蛋白質結構數量多一倍。DeepMind和歐洲分子生物學實驗室 (EMBL-EBI)合作公開資料庫,包括人類蛋白質組及20種模式生物(廣泛研究生物)蛋白質組,超過35萬條。

10月DeepMind發表修改版子模型,名為AlphaFold-Multimer,預測蛋白質複合物結構。11月子模型程式碼整合到AlphaFold二代程式碼,提高多鏈蛋白質結構預測準確度。

12月DeepMind增加AlphaFold資料庫超過40萬條蛋白質結構。

2022年:資料庫持續增長

1月DeepMind宣布超過30萬研究者使用AlphaFold資料庫,並添加超過27個蛋白質組,總計超過19萬條蛋白質結構預測數據。這次添加的重要性在於17個蛋白質組都和不受重視的熱帶疾病有關,卻影響全球十多億人。

7月DeepMind將AlphaFold資料庫從近100萬條擴展到2.14億條,涵蓋人類已知大多數蛋白質(即UniProt蛋白質資料庫大部分內容)。

(本文由 品玩 授權轉載;圖片來源:DeepMind

延伸閱讀: