新的演算法讓炙手可熱的 CRISPR 變得更簡單

作者 | 發布日期 2016 年 04 月 16 日 0:02 | 分類 生物科技 , 科技教育 , 軟體、系統 follow us in feedly

近幾年來,可以用來精準的操控任何生物 DNA 的 CRISPR 技術受到生物科技展業的大量關注。雖然好用,但是科學家仍然需要一些軟體的演算來加速這個過程。



CRISPR──又稱常間回文重複序列叢集(Clustered Regularly-Interspaced Short Palindromic Repeats)──原本是一個細菌用以抵抗病毒入侵的機制,科學家利用這個現象來關掉某個基因或是在準確的位置插入 DNA。這個系統有兩個重要的核心:一小段可以調整的基因序列(又稱引導 RNA)還有一個做為基因「剪刀」的蛋白質(通常是一個叫做 Cas9 的 DNA 酵素)。引導 RNA 帶著 Cas9 在生物體的基因體中尋找可以配對的 DNA 序列,像魔鬼氈一樣黏住然後讓 Cas9 去切斷 DNA。這些序列由 4 個鹼基(base)組成,分別是:腺嘌呤(A,Adenine)、胸腺嘧啶(T,Thymine)、鳥糞嘌呤(G,Guanine)與胞嘧啶(C,Cytosine)。細胞內的修復機制接著把斷口接起來,並在過程中破壞或夾進一些 DNA 序列,以此擾亂基因。生物學家們也可以在指定位置加入想要的鹼基對。

 

不是最新,但最好用

CRISPR 並不是第一個出現的基因編輯工具,但卻是目前為止出現最簡單且便宜的一個。研究學者可以用它來剔除(knock out)一些動物的基因來研究基因的功能、給農作物新的特性、調控微生物以產生藥物、發展基因療法以及用基因調整的方式在胚胎期「修正」遺傳疾病。

傳統的基因體改造技術僅僅是將 DNA 送入細胞中──誰也不知道它會插到哪裡去。而 CRISPR 就像編輯文件時,把游標移到某個字前面然後按下「刪除」或「貼上」,整套系統的建構甚至可以不用到 50 美元。雖然目前也有很多其他可以精準調控的基因編輯系統,但每次使用時都必須再經過調整,而且需要有更多專業和資源。幫助發展這項技術的麻州綜合醫院心血管研究中心化學生物學家 Jing-Ruey Joanna Yeh 表示:「在過去不到 4 年的過程中,CRISPR 已經改變了世界上的很多實驗室。這個簡單而且有效率的系統讓任何實驗室都可以輕鬆使用。」

雖然目前看起來很好用,但是 CRISPR 系統並不保證成功。「我們仍然不是很了解為什麼,」加州大學柏克萊分校創新基因體計畫主持人 Jacob Corn 表示:「這時候就是軟體出場的時候了:演算法可以幫助研究者設計一個統計上比較容易成功的 CRISPR 系統。」

 

大海撈針──尋找可用的序列

科學家們在找的通常是一段可以控制某個特定機能的 DNA 片段──一個基因,通常都由幾千幾百個鹼基組成。相對的,引導 RNA 通常只有約 20 個鹼基長,所以學者們要在整段基因中找出 20 個鹼基序列來相配。選擇時除了必須在基因之內,還有兩個需要考慮的限制:目標必須位在某個稱為「PAM」(Protospacer Adjacent Motif)的標的附近,而且不能和基因體上的序列重複。尋找 PAM 是一件相當容易的事──就像在一本書裡尋找「的」這個字一樣。

要確認那 20 個鹼基的序列在整個基因體中獨一無二,就沒那麼容易了。

在僅僅以 4 個鹼基組成,數以百萬計的鹼基對中,序列經常出現重複。引導 RNA 也因此很有可能會被錯誤的片段(off-target sites)吸引而產生錯誤的結果;太過於相向的序列也有可能造成偏差。Protospacer Workbench 的開發者、來自巴黎巴斯特研究所的資訊學家 Cameron Ross McPherson 說:「我們當然可以用肉眼去掃描整個基因體,但這樣會找到天荒地老。」

機器運算可以利用使用者給予的少量資訊,快速的達成這項工作。哈佛大學開發的 CHOPCHOP 需要的部分,就只有輸入物種名稱、基因序列還有一些選擇性的進階參數。接下來,電腦會幫你找到所有可能的序列,並依據在整個基因體中的重複性等參數給予排名,還會列出所有可用的引導 RNA 序列;而這只需要數秒的時間。舉例來說,斑馬魚的左右對稱基因(spaw gene)上就可以找到 55 個可能的引導 RNA 序列,而且每個都與基因體中的其他序列保持至少兩個鹼基的差異。

找出這 55 個理論上可以運作的引導 RNA 是個有用的起點,但是要確認哪一個才是最好的還是得透過費時的實驗和嘗試錯誤。能夠找出一個絕對可以運作的 RNA 的運算系統仍有待開發。

 

讓預測更加準確,或讓蛋白質幫忙瞄準

為了達到那個目標,生物統計學家開始爬梳實驗資料來尋找成功案例中相類似的模式,並希望可以把這些模式提供給能夠機器學習(machine-learning)的預測系統中。除了少數大型的資料庫之外,大部分的資料仍然散落在各個獨立的小型研究中。「把他們集合起來就可以得到非常有利的資源。」加州大學的 Corn 博士說。

布洛德研究所(Broad Institute)的一群科學家在人類及老鼠細胞中測試了近 2,000 個引導 RNA,並在最近發表了一些可以改進演算法的規則。另外一些科學家則在 Cas9 以及其他剪切蛋白質上動手腳,嘗試為使用者提供更多選擇。有些蛋白質可以提高引導 RNA 的準確度。如果成功的話,能夠預測 CRISPR 準確度的軟體不是要被淘汰,就是必須繼續進步。「如果有一天我們真的能夠排除錯位(off-target)的影響就太好了。不過我們還沒成功。」Corn 博士說。

(首圖來源:IEEE Spectrum) 

關鍵字: , , ,

發表迴響