科學界正經歷「地震級」巨變:科學家不斷開發 AI 新工具,並將人工智慧用於各種研究問題。
如今,研究員使用真實地震波數據,從全球最大地震資料庫擷取資訊,開發名為「SeisModal」的AI基礎模型,探索重大科學議題。「鋼絲計畫」(Steel Thread)集結了美國能源部轄下五座國家實驗室的科學家。
基礎模型是AI領域的核心技術,也是研究員不可或缺的工具。這類模型以大量多原始數據建構,再形成適用各種特定用途的知識與推理基礎。目前大型語言模型即為典型範例,文字與程式碼知識庫可延伸至探索各類問題。
儘管業界已開發出許多強大的基礎模型,但從設計之初就聚焦不擴散科學的模型卻寥寥無幾,這正是「鋼絲計畫」的目標。
太平洋西北國家實驗室(Pacific Northwest National Laboratory,PNNL)首席資料科學家、鋼絲計畫科學負責人Karl Pazdernik表示:「我們正在打造具廣泛力的基礎模型,能以最少重新訓練用於多種科學問題。」他曾於去年夏天在納許維爾舉行的聯合統計會議年會受邀發表演講,介紹這項研究。
鋼絲計畫由美國國家核安全管理局國防禁核擴散研究發展辦公室資助,參與科學家來自勞倫斯利佛摩國家實驗室(Lawrence Livermore National Laboratory)、洛斯阿拉莫斯國家實驗室(Los Alamos National Laboratory)、橡樹嶺國家實驗室(Oak Ridge National Laboratory)、桑迪亞國家實驗室(Sandia National Laboratories)及太平洋西北國家實驗室。SeisModal主要架構設計師為太平洋西北國家實驗室的Sai Munikoti和Ian Stewart。
對任何AI模型而言,資料庫規模、品質與多樣性至關重要:高品質且範圍充分多元的資料越多,模型準確度就越高。
地震會釋放大量穿透地球的能量,有助辨認地下事件的重要資訊。鋼絲團隊採用美國國家地震資訊中心維護的資料庫,涵蓋超過16,000筆地震事件,且符合多項重要標準:公開可取用、數據品質優良、收錄數千筆地震事件。
多模態SeisModal
SeisModal重要特點在「多模態」設計:模型能整合並理解多種類型數據。以地震為例,包括地震強度、位置、發生時間、波形細節、文字描述,以及照片或影片等影像資料。
模型整合所有資訊流,為每個事件建立完整樣貌,並為研究新事件提供依據。即使部分細節缺失,穩健的多模態模型往往仍能從現有數據得出可靠結論。鋼絲團隊的目標是建立能分析與不擴散相關之廣泛科學數據的模型。
Pazdernik表示:「建立旨在理解科學概念的AI基礎模型是項艱鉅任務,但應用範圍將遠超地震學領域。由於我們希望模型以科學為根基,專案的重點之一是確保所建構的模型值得信賴。為評估可信度,我們需要了解訓練資料、確認資料來源,並說明模型的安全性與可用性。SeisModal正是以透明數據訓練、建立可信賴科學模型的絕佳範例。」
SeisModal的優勢在分析「時間序列」,即一連串事件或數據點,如地震震波或心跳電波。
Stewart表示:「SeisModal能推理地震波形等複雜時間序列數據,比許多現有大型語言模型突破更大。偵測這些訊號及其他非常規資料類型的能力,為過去無法實現的多元科學分析方法開啟了新大門。」
太平洋西北國家實驗室發揮化學、地球科學、生物學及數據科學領域的獨特優勢,推進科學知識發展,應對能源韌性與國家安全領域的挑戰。實驗室成立於1965年,由巴特爾紀念研究所營運,並獲美國能源部科學辦公室支持。科學辦公室是美國物理科學基礎研究的最大單一資助機構,致力解決最迫切的挑戰。
(首圖來源:Pixabay)






