科學界有個嚴重被忽略的問題:大量研究資料,由於未納入正式發表的研究報告,可能永遠無法使用、驗證或延伸。為彌補缺憾,科學出版社 Frontiers 開發名為 FAIR² Data Management 的 AI 系統,讓「隱形的資料」(約占 90%)重返研究舞台。資訊刊登於 Frontiers 官網,揭示科學數據流失的解決方案。
為什麼 90% 科學資料會「消失」?
Frontiers 出版社與 AI 團隊指出,現代研究不斷產生龐大資料庫(datasets),但高達 80% 可能停在原始實驗室,從未公開;即便公開,真正符合 FAIR 原則(可找到、可存取、可互通、可重用)資料也不到 2%;能引導後續發現的資料更是寥寥可數,大多數研究資料的潛在價值都遭埋沒。
導致上述窘境的因素有很多:資料格式不一、缺乏完整描述、資料難存取等。此外,過去缺乏誘因與機制鼓勵研究者將資料撰寫成可引用的「資料文章」(data articles),或整理成機器能讀取的結構格式,都使資料雖在,卻「不被看見」。
AI 賦能,實現一站式資料管理
FAIR² Data Management 系統能自動將資料整理成有條理的檔案集,包括原始數據、分析方法、說明文件與圖表,還會檢查格式是否合規,產生一篇可引用的資料文章,以及能線上瀏覽的頁面。最後還會頒發 FAIR² 憑證,認證資料符合國際標準,可搜尋、理解與再利用,讓研究資料更完整透明,也更容易使用。
AI 當然扮演核心角色,能快速檢測資料品質、調整格式,甚至產生摘要。這種「AI 資料管理員」(AI Data Steward),能短時間完成人工可能需要數週或數月的工作。
科學資料重見天日的實例
為了驗證 FAIR² 功能,他們整合涵蓋 3,800 種新冠病毒刺突蛋白突變株的資料,並將 AI 預測結構、ACE2 結合能力與表現量數據整合至互通資料平台;也整合四間腦損傷研究中心共 343 張核磁共振影像,以標準化流程建構一致性資料;生物多樣性研究,分別建立可重用資料庫,涵蓋多國、多年代與多生態系統。
這些資料不但調整過格式、驗證過品質與互動展示,還能以 AI 介面讓使用者以自然語言提問。團隊指出,不僅提升資料可用性,也強化跨領域研究潛力,讓埋沒資料成為科學發展的「燃料」。
總結而言,FAIR² 系統突顯科學資料雖然大量產生,卻多半遺忘的現實。AI 新契機讓研究資料有效整理、分享與再利用。然而,要讓轉變成真,有賴科學家積極參與。制度上,讓資料可重用性成為評價與獎勵科學家的一部分,也很重要,若能科技、文化與政策三方面共同推進,讓沉沒的九成科學資料重新發光,未來知識累積將更完整,也更值得信任。
(首圖來源:Frontiers Media)






