分享 Google Brain 跨領域合作成果,簡立峰:開放源碼讓工程師與科學家能互有貢獻

作者 | 發布日期 2018 年 02 月 07 日 13:00 | 分類 AI 人工智慧 , Google , 天文 follow us in feedly

在人工智慧(AI)技術持續進化之下,許多領域的發展都有了都有了長足的進步,面對無法人工檢查或處理的龐大資料,機器學習及深度學習便成了絕佳解決方法,Google 6 日特別分享了一些 Google Brain 在天文及生物醫學合作方面的成果,希望藉此讓大家體會到開源和數據的重要性。



Google  台灣董事總經理簡立峰表示,在 NASA 的開放數據下,工程師也能夠對科學有所貢獻,基因組序列也是有著開放資料庫才能順利研究,而 Google 也在開發出運用深度學習的測序工具後便進行了開源,相信若許多科研領域若願意開放數據提供研究,各個產業的進步也將會更為快速。

用機器學習辨識新行星

美國太空總署(NASA)在 2009 年展開了克卜勒任務(Kepler mission),透過克卜勒太空望遠鏡的觀測及記錄,4 年期間總計蒐集逾 20 萬顆恆星、每顆恆星 7 萬次亮度的紀錄。

在檢查超過 3 萬個望遠鏡收集的訊號後,科學家已經能夠認定其中約有 2,500 個是來自於行星,但這樣的人工檢查過程相當耗時,加上有些外在因素(如恆星上的斑點)導致訊號較弱的無法倚靠人工判讀,單以人力進行可說是相當吃力不討好。

▲望遠鏡收集了許多訊號,無法全部都以人工檢查。(Source: Google )

而機器學習便在這時候派上用場,在與 NASA 的合作中,Google Brain 團隊將尋找行星的過程主要分成兩個階段,先是由電腦演算法找出潛在行星訊號後,再由天文學家判斷哪些訊號是來自真實的行星。

為此 Google 特別運用通常用於圖像分類的卷積神經網路(CNN)建立了模型,再透過 15,000 個天文學家已人工標記的克卜勒訊號來訓練模型辨識。在經過訓練後,Google 的演算法在克卜勒資料庫中的 670 個恆星中,發現了新行星克卜勒「90 i」和克卜勒「80 g」。

與人工判讀的不同,Google Brain 團隊提供給神經網路的主要是較弱的訊號,這些訊號由於較難判讀、存在行星的比例也較低,過去並不會將人工時間運用於此,但透過機器學習的模型大量篩選了訊號,天文學家只需要從少量訊號中進行判斷即可。

▲ 上方為 Kepler-90 系統行星,下方則為太陽系行星。(Source:NASA

但機器學習在搜尋上仍有一些尚未能解決的問題。像是在有數個鄰近恆星的情況下,模型還無法辨別行星的訊號是來自何者,目前這點仍仰賴人工方式協助模型確認,團隊計畫未來將更新系統,加入位置資訊辨識,來達到下一個目標:運用模型辨識整個克卜勒資料庫中超過 20 萬顆恆星。

深度學習與基因變體識別(Variant Calling)

基因組測序技術在近幾年來相當火紅,透過捕獲遺傳密碼中的各項訊息,對於癌症標靶治療的療效、新生兒疾病的病因尋找都十分有幫助,而變體識別(Variant Calling)便是測序過程中相當重要的一環。

雖然變體識別並無法預測變體是否會產生疾病,但透過找出「個體」和「參考基因組」間的差異,將能做為許多醫療及藥物開發的第一步,只是考量到人類基因組的龐大資料量,以及測序儀不完整且碎片化的讀取特性,變體識別仍在持續發展當中。

▲ 變體識別。(Source: Google )

現有普遍的變體識別工具仍維持傳統的統計技術,仰賴大量人工參與,也因此需要花費專家多年時間進行,為了協助提高基因組測序準確性,Google Brain 團隊與 Verily Life Sciences 合作花了兩年多時間開發出 DeepVariant,透過深度學習大量省去了人工手調參數的時間。

在將測序儀的數據編碼為圖像後,DeepVariant 便能使用常見的圖像分類演算法訓練出準確的識別模型,目前 DeepVariant 主要進行 DNA 序列分析,在去年 12 月正式開源後,一周內便成為 GitHub 上最熱門的生物資訊工具。

目前 Google Brain 正與 Google Cloud 合作,計畫運用 GCP 上的技術再提升 DeepVariant 的性能,團隊計畫未來將 DeepVariant 應用到農業及其他生物的研究上,但現階段仍在尋求更多臨床驗證的合作機會,才能進一步驗證 DeepVariant 的準確性及衍生應用的幫助。

(首圖來源:科技新報)

延伸閱讀: