在 OpenAI 發表會大放異彩的 Mark!是如何從台灣走向世界?

作者 | 發布日期 2024 年 05 月 18 日 10:30 | 分類 AI 人工智慧 , 人力資源 line share follow us in feedly line share
在 OpenAI 發表會大放異彩的 Mark!是如何從台灣走向世界?


OpenAI 新發表會 GPT-4o 再度震驚全球!不過現場示範的 Mark Chen 對答落落大方讓人更驚豔。原來他是台灣長大後赴美,現任 OpenAI 要職,中文名陳信翰。母親是清大教授、父親則曾任光電業要職,他究竟如何從小培養超強數理能耐,獲得奧特曼青睞?其實去年他就在台灣活動暢談成長背景。

台北時間5月14日,OpenAI新發表會發表團隊,有位亞洲面孔Mark Chen。他面對全球注目,示範如何對GPT-4o(拉丁文omni縮寫)表演深呼吸。雖笑說自己很緊張,但舉手投足充滿自信,網友倍感驚豔。

▲ OpenAI新發表會,Mark Chen示範如何對GPT-4o表演深呼吸。

這位OpenAI創辦人奧特曼(Sam Altman)盛讚過的Mark Chen正是台灣人,目前為OpenAI多模態與尖端研究部門主管(head of multimodal and frontier research),去年9月受邀至國立清華大學電機資訊學院演講。他的出身背景為何?

誰是Mark Chen?

▲ 陳信翰在美國出生成長,高中時隨家人返台讀書,就讀新竹實中雙語部。

Mark Chen中文名是陳信翰,母親邱瀞德為清華大學教授、現任資訊系統與應用研究所所長,父親陳建任曾任聯亞光電董事長。陳信翰在美國出生成長,高中時隨家人返台讀書,就讀新竹實中雙語部。

清大電資學院院長徐碩鴻分享,陳信翰高中曾到清大先修包含離散數學等課程。這並非清大資應所首次邀請他,2021年陳信翰就曾以「Generating Text and Images with GPT」為題網路分享。

▲ 徐碩鴻回憶,陳信翰就讀高中時曾拜訪陳家,陳信翰分享SAT如何拿到滿分。

去年台灣人工智慧論壇,主持人問陳信翰台灣和美國教育有何差異?他委婉表示,在台灣並非有紀律(disciplined)的學生。陳信翰接連在數學競賽AMC10、AMC12和AIME拿下滿分好成績,進入麻省理工學院就讀。2008年因AMC12接受採訪時他表示「台灣課本和試題都太強調演算,會磨損學生享受算數學的樂趣」。

MIT拿到數學和資工雙學位、在學時至微軟實習,畢業後進入自營交易機構從事量化投資,開發股票和期貨機器學習演算法,現在於OpenAI擔任研究科學家,領導多模態與尖端研究部門,陳信翰對Codex、GPT-3、Image GPT都有貢獻,帶領過DALLE‧2團隊,並替GPT4引進視覺功能。

這場長達90分鐘的分享吸引超過400名觀眾參加,不僅座無虛席,走道也有學生或坐或臥,陳信翰以「Getting the Most out of GPT」演講,之後回答觀眾提問。

GPT-4o模型進步史,就是智力成長史

陳信翰表示「GPT模型愈來愈像人類」,接著以模型版本更新詳細說明。GPT模型本質為機率模型,利用機器學習預測新詞彙完成語句。當GPT-2出現,即便沒有訓練模型完成特定任務,模型卻能完成所有語言描述的任務。

陳信翰強調,GPT-2讓OpenAI發現「幾乎所有任務都能用語言描述」,這為何重要?關鍵在這頓悟讓OpenAI體會到將任務化為「prompt」(指令或提示),之後調校並改善模型。

進展到GPT-3給OpenAI兩個啟示,一為規模的重要性,體現縮放定律(scaling laws)不會騙人。OpenAI 2020年發表論文,當自回歸生成式模型的模型規模增長、使用更多算力時,表現會進步,且幅度還能用精確公式預測。陳信翰表示,「我們會盡可能追逐這個定律,希望它不會失效(break)」。

第二啟示是,只要提供足夠脈絡和實例,GPT-3就能學習如何完成訓練時未見過的任務,逐漸達到人類推理時用歸納法做到的一般化(generalization)。快轉至今年發表的GPT-4,引入視覺輸入(visual input)多模態功能,且更會推理、語言理解加深,如能解釋笑話笑點何在,和人類對話時可脈絡化(contextualize)的理解相同。

陳信翰盤點GPT版本變化的「成長歷程」,從完成句子到用指令對話,再逐步學會歸納法、理解脈絡,儘管運作方式與人類有異,但真如看小孩成長。

▲ 陳信翰表示,改善GPT推理(reasoning)能力是OpenAI重要的工作。

對齊模型與人類、好模型標準多元

陳信翰也分享GPT兩大挑戰:先對齊模型行為與人類意圖,再來讓模型更「好」。

陳信翰指語言模型用途是設計預測下個詞彙,而非「對人有幫助」,因此初期模型產出很難滿足需求,OpenAI解法是「人類回饋強化學習」(RLHF),以回饋模型(reward model)讓GPT知道並模仿人類偏好。

知曉人類意圖以後,模型還能怎麼改善?首先要定義「什麼是更好」,「更好」本身就有多重意涵,共三層:

  1. 「讓模型運作更像人類」是種進步,因此OpenAI關注「思維連鎖」(chain of thought)研究,要求模型不要直接回答問題,而是模仿人類思考時分拆步驟,也透過互相辯論對抗,避免生成內容只有單聲道。
  2. 「讓模型回答更能驗證」也是種進步,可用外部網頁爬蟲和自我監督處理,請開發商進駐提供外掛,直接和即時資訊對接。
  3. 「讓模型回答更多元」當然也是種進步,因此OpenAI有考慮多元化人類回饋者背景,反映不同族群的想法與偏好,帶動生成內容方向。

問答時陳信翰對模型信任與安全性、OpenAI拒絕開源一一回答,也分享研究方向。

就模型信任與安全性而言,消極層次能做到的是事前預防,如直接禁止兒童性剝削等關鍵字,其餘有爭議詞彙則以人類回饋反制;積極層面更積極探究模型如何思考,並讓模型勇於說「我不知道」,再透過外部資訊檢索補足缺陷。

▲ 陳信翰指出,安全性絕對是OpenAI關注議題,也有人提問如何制定「圍欄」確保安全。

沒有開源GPT-4,陳信翰解釋貿然開源會讓人惡用,故先開放一般用戶、理解缺陷後,日後再視情況開源,陳信翰強調安全性無法真空達成,意指唯有人們真實世界試用,研究者才能理解最先進技術的限制與不足。不過OpenAI不開源的理由,仍然無法為國際科技社群接受。

未來研究方向部分,模型更輕量化甚至手機也能用,還有增加模型與真實世界的互動,測試多模態模型邊界,以及讓模型完成廣泛目標(general purpose),OpenAI都有陸續進行。

奧特曼和陳信翰等帶領OpenAI不斷推動機器智慧,直至新疆界。我們在旁見證,同時期待與擔憂,不懈反思人類的價值。

(本文由 遠見雜誌 授權轉載;首圖來源:影片截圖)