DNA 將成為新時代的硬碟?

作者 | 發布日期 2017 年 04 月 07 日 13:52 | 分類 生物科技 follow us in feedly

人類在儲存資料一直面對一個問題:資料在過去兩年內儲存的數目已經超過以往歷史的紀錄。資訊的急流有朝一日將會超過目前硬體所能儲存的空間。而研究者竟然將腦筋動到大自然最原始的儲存硬碟上:DNA。



聽起來有點不可思議,但其實用 DNA 儲存資料早就不是一件新鮮事了。自有生命以來,萬物就開始利用 DNA 當作儲存媒介。DNA 就像一座旋轉階梯,當作梯子的就是鹼基 ATCG,由這 4 個鹼基排列出的序列可以編碼所有生命。而科學家嘗試做的,就是將數位資訊的 0 和 1 轉換成這 4 個字母。

一定會有人覺得何必這麼麻煩,那是因為 DNA 有其他硬碟沒有的好處,首先它佔用的空間極小,而且非常持久,只要保存在冰冷乾燥的陰暗處,猛瑪象的 DNA 都可以析出並定序。最重要的是,DNA 永不過時,不像 CD 或錄音帶會沒落。

自 2012 年來科學家們一直嘗試在用 DNA 儲存資料,來自哈佛大學的遺傳學家喬治‧茄契(George Church)和加州大學洛杉磯分校的生化學家斯理‧克蘇里(Srirram Kosuri)及他們的團隊將 DNA 的 4 個字母──ATCG 錄製成數位化的 0 和 1,將一本有 5 萬個字母的書轉錄在上千個片段的 DNA 上。看似成功,但實際上成效非常差,每克 DNA「只能」儲存 1.28PB(1PB=1024TB)。使用其他方法也許能再改進一些,但沒有人可以達到理想目標的一半。

理想上科學家們究竟要做到多好呢?他們認為每個 DNA 的核甘酸應該可以儲存 1.8bits。想必有人會疑惑為何不是整數的 2,因為他們也考量到稀少卻無法忽視的 DNA 讀取失誤。

來自哥倫比亞大學的電腦科學家雅尼夫‧埃利希(Yaniv Erlich),仍然堅持他可以更接近這個極限。他和紐約基因體研究中心的副研究員迪娜‧資林斯基(Dina Zielinski)將目光轉向常用來編碼和解鎖的算法程式。他們利用 6 個檔案,包含了一個完整的電腦運作系統、史上第一部電影《火車進站》……等等,接著將它們轉換成二進制,壓縮成一個壓縮檔,在分成數串二進位的代碼。最終產生出一股 200 個鹼基長、共 7 千股的數位清單。

他們將這些檔案傳給位於舊金山的生物科技公司 Twist Bioscience,請他們合成出 DNA 序列。兩週後,兩人就收到一小瓶轉錄檔案的 DNA,為了將它解碼,他們利用現代 DNA 定序科技:序列會被送進電腦轉換回二進制,並利用標籤重組回 6 個原始檔。根據埃利希宣稱,他們的儲存容量效率極佳,每個核甘酸就能編碼高達 1.6bits,比其他對手好上 60%,更逼近理想目標的 85%。

然而用 DNA 儲存資訊會一直面臨一個問題:那就是序列定序同時也會毀損此序列,讀取越多,DNA 也會逐漸消失。埃利希說:「假設我們決定編碼《Let it Go》這首歌(電影《冰雪奇緣》主題曲),DNA 將會在一週內消耗殆盡。」另外,本質上 DNA 十分容易複製,然而將 DNA 編碼的資料備份卻是一件瑣碎的事,因為每次備份都會有出錯的風險。

但埃利希和茲林斯基設計出一種名為「DNA 噴泉」的演算法,可以將他們分類好的二進位代碼包裝進所謂的「水滴」中,他們還加了額外的標籤幫鹼基在稍後重新排列成正確順序。而複製錯誤的困擾因此迎刃而解,就算複製超過 10 份,他們仍可以完美修復。

巧合地,Netflix 和 Spotify 的串流服務平台也是利用噴泉代碼解決相似的問題。做法大致就是將資料劃分成「水滴」,只要得到足夠的水滴,不管遺失哪部分都可以重新建構所有串流影音。埃利希還將之比喻成一塊巨大的數獨拼圖,只要有些正方形區域,依然可以推斷出完整的樣貌。

DNA 儲存也將會形成主流,而且會越來越便宜。目前 DNA 的定序確實昂貴,合成 DNA 更是所費不貲,但兩者的價格一直在跌落。不過就算持續減價,合成 DNA 仍需要一定的技術,因為只有少數工廠支持相關研究的實驗室。埃利希預測強況將會扭轉,並表示:「別忘了第一部硬碟需要 4 個人才拿得動,經過 10 年已經變成指頭大小。儘管目前只有少部分資金投入合成 DNA,但我希望藉由更優秀的裝置,將 DNA 儲存資料的潛能完全激發出來。」

也許在未來的某一天,我們周遭隨處可見的硬碟,將被一瓶瓶 DNA 取代。

(首圖來源:Columbia University,圖為 Yaniv Erlich 與 Dina Zielinski。) 

關鍵字: , ,