專攻生命科學研究，OpenAI 提出 GPT-Rosalind 新模型

OpenAI 16 日宣布開發出一款支持生物學、藥物發現及轉譯醫學的大型語言模型，以生物化學家羅莎琳·富蘭克林（Rosalind E. Franklin）命名為「GPT-Rosalind」。GPT-Rosalind 現以研究預覽版形式，在 ChatGPT、Codex 及 OpenAI API 向符合資格的用戶開放。

GPT-Rosalind 設計目的是解決現今生物學研究人員所面臨的兩大障礙：一是數十年來基因組定序和蛋白質生化研究所產生的龐大資料集，對任何一位研究人員而言都能難以消化。二是生物學有許多高度專業的次領域，每個領域都有自己的技術和術語。科學家必須查閱大量文獻、專業資料庫、實驗數據以及不斷演進的假設，才能評估出新想法，這些流程勞心勞力、分散且難以規模化。

OpenAI 生命科學產品負責人 Yunyun Wang 表示，OpenAI 採用一款大型語言模型，以 50 個最常見的生物學工作流程，以及如何存取公開生物資料庫的方式訓練而成。進一步的訓練使這套 AI 系統能夠建議可能的生物途徑，為潛在的藥物排定優先順序。「我們透過已知的途徑和調控機制將基因型連結到表現型，推論蛋白質可能的結構或功能特性，真正充分運用這種機制的理解」，她說。

為了解決大型語言模型可能過於諂媚和過度熱情的傾向，OpenAI 已經調整 GPT-Rosalind，具有懷疑精神，因此它更有可能告訴你某樣東西是否為不理想的藥物。Yunyun Wang 談到 GPT-Rosalind 的推理和專家級能力，前者的定義是模型能夠處理複雜的多步驟流程，後者則是模型在少數幾項基準測試的表現達到專家程度。

由於擔心 GPT-Rosalind 若被不法分子要求諸如強化病毒感染力等狀況，可能產生有害輸出，OpenAI 目前限制模型使用權限，只有美國境內的機構能夠申請 OpenAI 可信任存取部署架構，當然 OpenAI 也會限制誰能真正使用它，另外也會推出一款功能相對有限的生命科學研究外掛程式，供一般大眾來使用。

多家科技公司推出科學導向、擁有代理式 AI 能力的大型語言模型，但 OpenAI 認為那些模型的專注程度不及針對生物學的 GPT-Rosalind。日後的研究成效，以及是否真能為生物和醫療業界帶來貢獻，值得後續觀察。

最後補充的是，羅莎琳·富蘭克林對於 DNA 結晶體所做的 X 射線繞射圖，是解析 DNA 結構的重要線索，更讓詹姆士·華生（James Watson）和法蘭西斯·克里克（Francis Click）之後得以解出 DNA 雙股螺旋的結構，這 2 人與莫里斯·威爾金斯（Maurice Wilkins）在 1962 年獲得生理醫學諾貝爾獎。但為現代分子生物學奠定基礎的羅莎琳·富蘭克林，卻成了諾貝爾獎的遺珠。

（首圖來源：shutterstock）