OpenAI 16 日宣布開發出一款支持生物學、藥物發現及轉譯醫學的大型語言模型,以生物化學家羅莎琳·富蘭克林(Rosalind E. Franklin)命名為「GPT-Rosalind」。GPT-Rosalind 現以研究預覽版形式,在 ChatGPT、Codex 及 OpenAI API 向符合資格的用戶開放。
GPT-Rosalind 設計目的是解決現今生物學研究人員所面臨的兩大障礙:一是數十年來基因組定序和蛋白質生化研究所產生的龐大資料集,對任何一位研究人員而言都能難以消化。二是生物學有許多高度專業的次領域,每個領域都有自己的技術和術語。科學家必須查閱大量文獻、專業資料庫、實驗數據以及不斷演進的假設,才能評估出新想法,這些流程勞心勞力、分散且難以規模化。
OpenAI 生命科學產品負責人 Yunyun Wang 表示,OpenAI 採用一款大型語言模型,以 50 個最常見的生物學工作流程,以及如何存取公開生物資料庫的方式訓練而成。進一步的訓練使這套 AI 系統能夠建議可能的生物途徑,為潛在的藥物排定優先順序。「我們透過已知的途徑和調控機制將基因型連結到表現型,推論蛋白質可能的結構或功能特性,真正充分運用這種機制的理解」,她說。
為了解決大型語言模型可能過於諂媚和過度熱情的傾向,OpenAI 已經調整 GPT-Rosalind,具有懷疑精神,因此它更有可能告訴你某樣東西是否為不理想的藥物。Yunyun Wang 談到 GPT-Rosalind 的推理和專家級能力,前者的定義是模型能夠處理複雜的多步驟流程,後者則是模型在少數幾項基準測試的表現達到專家程度。
由於擔心 GPT-Rosalind 若被不法分子要求諸如強化病毒感染力等狀況,可能產生有害輸出,OpenAI 目前限制模型使用權限,只有美國境內的機構能夠申請 OpenAI 可信任存取部署架構,當然 OpenAI 也會限制誰能真正使用它,另外也會推出一款功能相對有限的生命科學研究外掛程式,供一般大眾來使用。
多家科技公司推出科學導向、擁有代理式 AI 能力的大型語言模型,但 OpenAI 認為那些模型的專注程度不及針對生物學的 GPT-Rosalind。日後的研究成效,以及是否真能為生物和醫療業界帶來貢獻,值得後續觀察。
最後補充的是,羅莎琳·富蘭克林對於 DNA 結晶體所做的 X 射線繞射圖,是解析 DNA 結構的重要線索,更讓詹姆士·華生(James Watson)和法蘭西斯·克里克(Francis Click)之後得以解出 DNA 雙股螺旋的結構,這 2 人與莫里斯·威爾金斯(Maurice Wilkins)在 1962 年獲得生理醫學諾貝爾獎。但為現代分子生物學奠定基礎的羅莎琳·富蘭克林,卻成了諾貝爾獎的遺珠。
- OpenAI Takes on Google With New AI Model Aimed at Drug Discovery
- OpenAI launches AI model GPT-Rosalind for life sciences research
- OpenAI starts offering a biology-tuned LLM
(首圖來源:shutterstock)






