德國科學家訓練 DNA 語言模型，試圖解開更多 DNA 祕密

自從華生與克里克（James Watson and Francis Crick）博士於 1953 年揭開 DNA 雙股螺旋結構以來，科學家對 DNA 蘊藏訊息量之豐富驚嘆不已。多年研究表明，DNA 序列資訊為多層次，並非只記錄基因所需訊息。基因僅占人類 DNA 全長 2%，其餘 98% 曾認為是「垃圾 DNA」的非編碼區域（non-coding region），如今漸漸發現它們對基因表現、人體健康都至關重要，值得深入探索。

已知這些非編碼 DNA 序列，有些有調節基因表現功能，有些能幫助穩定 DNA 整體構造，還有些非編碼 DNA 區域則參與 DNA 修復過程以避免突變發生。然而人類「基因組」（genome）含有高達 30 億個「鹼基對」（nucleotide base pairs），仍有許多未知的領域亟待探索。

德國德勒斯登工業大學（Technische Universität Dresden）領導本次研究的科學家安娜·波特施（Anna Poetsch）博士說：「解析 DNA 非編碼區域我們知之甚少，多數序列可能同時具有多種功能，而這正是 AI 和大型語言模型可發揮之處。」DNA 就像生命百科全書，何不把它當成語言研究？團隊運用人類基因組的 DNA 序列訓練了一個名為 GROVER 的大型 DNA 語言模型，幫助解碼 DNA 序列中的生物學意義。

用「壓縮演算法」創建 DNA 字典

GROVER 已掌握 DNA 基本規則。研究員梅莉莎·薩納布里亞（Melissa Sanabria）博士解釋：「語言學談論語法、句法和語義，DNA 則涉及學習序列的規則及含義。就像 ChatGPT 學習人類語言，GROVER 基本上學會如何與 DNA 的語彙互動。」團隊確認，GROVER 不僅能準確預測接下來的 DNA 序列，還可提取具生物學意義的訊息，如辨識 DNA 基因啟動的位點或蛋白質結合區域。相關成果已刊登於《自然機器智慧》（Nature Machine Intelligence）期刊。

DNA 類似語言，由四個字母（A、T、G 和 C）構建序列，這些序列都有意義。為了訓練 GROVER 理解含意，團隊使用「壓縮演算法」（compression algorithms）創建 DNA 字典。薩納布里亞博士解釋：「我們分析完整基因組 DNA 序列，尋找最常見的字母組合，從兩個字母開始，逐步建構多字母組合。約 600 次循環後，我們將 DNA 片段化為『單詞』，使 GROVER 預測下個序列時達最佳效果。」

波特施博士表示：「未來 GROVER 幫助解開 DNA 不同層次的遺傳密碼。DNA 記載何以為人類，以及疾病治療反應的關鍵資訊。」她深信，運用語言模型協助理解 DNA，不僅揭開 DNA 深層生物學意義，更有助推動基因體學和個人化醫療進展。