
奧地利茵斯布魯克研究員弗里德里克·巴克曼(Friederike Barkmann)4 日宣布,全球最大蝴蝶和蛾類 AI 資料庫上線,含 541,677 張來自 185 種奧地利蝴蝶和蛾類圖片,為「Schmetterlinge Österreichs」計畫一部分,由超過 25,000 名志工 2016~2023 年以 App 收集而來,為生物多樣性研究的寶貴資源。
資料庫最大特點就是規模龐大,54萬張圖片為全球最大蝴蝶和蛾類資料庫。所有照片、模型和腳本都已公開,供全球科學家研究。巴克曼也用圖片訓練出基於MaxVit-t架構的AI模型,能自動辨識162個物種,節省許多時間和成本。此AI模型對其他研究者改善生物多樣性非常有幫助。
訓練如此龐大的AI模型當然需極高算力,此次主角就是超級計算機(高性能計算,HPC)。巴克曼最初用茵斯布魯克HPC系統LEO5訓練模型,但之後歐洲計算中心(EuroCC Austria)專家安德烈亞斯·林德納(Andreas Lindner)支援,以並行化計算加速。最後登場的是歐洲最大超級計算機之一LEONARDO,又使訓練時間縮短90%。微調則是芬蘭LUMI超級計算機貢獻。
蝴蝶和蛾是生物多樣性的關鍵指標,了解這些物種的棲息地和密度對氣候變遷和全球生物多樣性為重要關鍵。開放資料庫為全球研究員提供訓練和測試AI模型的基礎,助力氣候變遷等多研究領域。
資料庫可在figshare和GitHub取得,論文發表於《Scientific Data》。
- Butterflies and Conservation: Largest AI Dataset Now Released
- RikeB/CNN_butterfly_identification
- Machine learning training data: over 500,000 images of butterflies and moths (Lepidoptera) with species labels
(圖片來源:論文)