
自從華生與克里克(James Watson and Francis Crick)博士於 1953 年揭開 DNA 雙股螺旋結構以來,科學家對 DNA 蘊藏訊息量之豐富驚嘆不已。多年研究表明,DNA 序列資訊為多層次,並非只記錄基因所需訊息。基因僅占人類 DNA 全長 2%,其餘 98% 曾認為是「垃圾 DNA」的非編碼區域(non-coding region),如今漸漸發現它們對基因表現、人體健康都至關重要,值得深入探索。
已知這些非編碼 DNA 序列,有些有調節基因表現功能,有些能幫助穩定 DNA 整體構造,還有些非編碼 DNA 區域則參與 DNA 修復過程以避免突變發生。然而人類「基因組」(genome)含有高達 30 億個「鹼基對」(nucleotide base pairs),仍有許多未知的領域亟待探索。
德國德勒斯登工業大學(Technische Universität Dresden)領導本次研究的科學家安娜·波特施(Anna Poetsch)博士說:「解析 DNA 非編碼區域我們知之甚少,多數序列可能同時具有多種功能,而這正是 AI 和大型語言模型可發揮之處。」DNA 就像生命百科全書,何不把它當成語言研究?團隊運用人類基因組的 DNA 序列訓練了一個名為 GROVER 的大型 DNA 語言模型,幫助解碼 DNA 序列中的生物學意義。
用「壓縮演算法」創建 DNA 字典
GROVER 已掌握 DNA 基本規則。研究員梅莉莎·薩納布里亞(Melissa Sanabria)博士解釋:「語言學談論語法、句法和語義,DNA 則涉及學習序列的規則及含義。就像 ChatGPT 學習人類語言,GROVER 基本上學會如何與 DNA 的語彙互動。」團隊確認,GROVER 不僅能準確預測接下來的 DNA 序列,還可提取具生物學意義的訊息,如辨識 DNA 基因啟動的位點或蛋白質結合區域。相關成果已刊登於《自然機器智慧》(Nature Machine Intelligence)期刊。
DNA 類似語言,由四個字母(A、T、G 和 C)構建序列,這些序列都有意義。為了訓練 GROVER 理解含意,團隊使用「壓縮演算法」(compression algorithms)創建 DNA 字典。薩納布里亞博士解釋:「我們分析完整基因組 DNA 序列,尋找最常見的字母組合,從兩個字母開始,逐步建構多字母組合。約 600 次循環後,我們將 DNA 片段化為『單詞』,使 GROVER 預測下個序列時達最佳效果。」
波特施博士表示:「未來 GROVER 幫助解開 DNA 不同層次的遺傳密碼。DNA 記載何以為人類,以及疾病治療反應的關鍵資訊。」她深信,運用語言模型協助理解 DNA,不僅揭開 DNA 深層生物學意義,更有助推動基因體學和個人化醫療進展。
(首圖來源:Unsplash)