代寫論文 ChatGPT，背後 Open AI 揭密

11 月開放使用，一週就湧進百萬用戶的聊天機器人 ChatGPT，全球網友發現可代學生寫論文、老師看不出來；還能代讀研究報告選股；代回客服信函，甚至幫工程師寫程式碼，通中英文，簡直會害文組理組一起失業。如此強大的 AI 工具，開發公司是 Open AI，馬斯克竟是創辦人之一。Open AI 還有哪些厲害 AI 服務等著推？又為何被馬斯克半途拋棄？一文完整揭密。

開放大眾使用的對話式語言模型ChatGPT後，人工智慧研究實驗室OpenAI再度讓普羅大眾驚豔人工智慧的威力，且記住它的名字。這也是自2020年推出GPT-3以來，OpenAI開發出的服務又一次席捲社群，也擦亮人工智慧領域的領先招牌。不過說起OpenAI發展，這次ChatGPT的耀眼表現，並不適合用「十年寒窗苦心鑽研無人聞問，而後一夕成名」來描述，探究其發展經歷，更可說是厚積而薄發。

究竟OpenAI是什麼來頭？為什麼創辦人之一最終退出？科技巨頭微軟看上它什麼？除了ChatGPT以外，OpenAI還開發出什麼人工智慧的有趣應用？《遠見》整理OpenAI的發展脈絡，並盤點其面向人們貼近生活的服務，帶你一次看。

OpenAI是什麼背景？

OpenAI專攻人工智慧，由非營利OpenAI Inc.和營利OpenAI LP組成。創辦人大有來頭，分別是特斯拉執行長暨Twitter新老闆馬斯克（Elon Musk），以及素有新創孵化器美名的創投Y Combinator前總裁亞特曼（Sam Altman）。

據官網所述，OpenAI希望讓通用人工智慧（artificial general intelligence，AGI）造福全人類，致力打造安全且對人類有助益的AGI。

通用人工智慧又稱強人工智慧（strong AI），指的是接近甚至超越人類的人工智慧。預想通用人工智慧能像人類具備認知能力，能邏輯推理，甚至擁有自我意識，可執行不同任務，用途廣泛。概念上與應用人工智慧（applied AI）或弱人工智慧（weak AI）相對，後者用途相對狹窄，機器僅能學習有明確目的任務，如辨識臉部、下棋、醫療影像判讀、自動導航等。

▲ 專攻西洋棋、IBM開發的Deep Blue，還有專供圍棋、DeepMind開發的AlphaGo，都屬弱人工智慧。（Source：影片截圖）

人工智慧發展史上，開發通用人工智慧一向是電腦科學界始終無法實現的渴望。縱使近年因電腦運算能力發展成功度過AI寒冬，深度學習便宜且有效落地，主宰人工智慧領域，但目前許多應用仍是弱人工智慧範疇，科幻電影和人類培養深厚感情的通用人工智慧，仍是研究者的失落聖杯。

不過，OpenAI並沒有放棄，挖掘頂尖人才、引入資金，挑戰各類AI任務，希望朝終焉之地邁進。

科技巨頭微軟看上它什麼？

創立之初，OpenAI屬非營利組織，2019年時OpenAI表示，未來希望增加運算能力和人才投資，如大規模雲端運算、建造超級電腦等，同時又要與夢想平衡，兩者都需要資金，為了增加募資能力，OpenAI決定成立營利公司OpenAI LP。

雖然OpenAI LP重視營利，但OpenAI當時表示，相信能專注發展新AI技術，不只將重點放在商業產品，同時有非營利和營利企業組織架構，不用只看眼前利潤，更能深入研究，追求長期回報。

除了初創時投資者與創辦人共同承諾投資的10億美元，2019年微軟（Microsoft）加碼投資10億美元，希望透過此次和OpenAI合作共同發展通用人工智慧，微軟想利用OpenAI先進人工智慧研究的力量，並相關技術民主化。

當然，強強聯手不只是做公益，微軟不只成為OpenAI的獨家雲端系統供應商，兩者更合作開發微軟公有雲服務Azure的超級運算技術。之後微軟也推出Azure OpenAI的相關服務，整合至Open AI開發的產品。舉例來說，行銷領域和媒體界的使用者能藉此工具，據球賽評論快速產生精華摘要，進而迅速發稿。不僅如此，微軟也把「望文生圖」的DALL-E加入旗下創作服務和Microsoft 365，讓微軟用戶也享受OpenAI的世界級產品。

▲ DALL·E產生的圖片風格各異，能寫實也能童稚或科幻。（Source：DALL·E by OpenAI）

為什麼馬斯克半路退出？

微軟投資OpenAI時勾勒願景如此動人：民主化人工智慧技術、共同開發對人類有益的通用人工智慧，然2020年9月，OpenAI把集結科學家心血、耗費巨資開發的GPT-3獨家授權微軟，引來外界撻伐。雖然走向商業化之路無可厚非，但因OpenAI承諾過要開放，因此不是所有人都能接受與微軟合作。

創辦人之一馬斯克2019年2月宣布離開OpenAI，除了要專注處理特斯拉和SpaceX的工程與製造問題，馬斯克指出，特斯拉與OpenAI爭取同領域人才，有潛在利益衝突，此外「我並不認同OpenAI團隊想做的事」。

2月馬斯克前腳剛走，3月OpenAI便成立營利公司OpenAI LP，很有可能就是馬斯克所說的道不同不相為謀。因此2020年時看見微軟取得GPT-3獨家授權，馬斯克在Twitter推文抨擊「OpenAI已被微軟俘虜」，縱使微軟技術長暨副總史考特（Kevin Scott）指出，外界仍可持續使用GPT-3及其他OpenAI開發模型，但馬斯克仍說，如此行為看起來並不像誓言「開放」的組織會做的事。

OpenAI開發出什麼有趣的人工智慧服務？

OpenAI並沒有讓投資人和社會大眾失望，陸續開發人工智慧創造內容（AI generated content）模型，並公開部分成果給大眾使用。

以圖像和文字來說，分別推出輸入文字便能產生圖像的DALL-E，以及給圖後產生文字的CLIP。DALL-E和Midjourney相似，使用者輸入各種指令（prompt）組合，人工智慧便會產生精美程度甚高的圖片，雖然有時會出現和物理世界不符的情況，如不符合人體工學的肢體角度、動物擁有四肢以外軀幹、不可能存在的光影等，但「以文產圖」結果已能符合大眾審美。

至於CLIP模型，是利用對比讓電腦認識不同圖片的差異，產生判斷，再依此生產文字。實用性也不容小覷，平常人們整理照片時，時常要花時間整理相簿，如將相片照過往參加過活動分類，甚至有些要重新命名方便日後查找。然而，真的要找特定的照片還是很艱難，因為圖片與文字並不共通，如「自己與家中小狗的合照」或「塞車街景」，即使搜尋欄位輸入小狗或塞車，也不會跳出正確的結果。

▲ 利用CLIP生成的模型，能夠「以文找圖」。（Source：GitHub）

以文搜圖超方便

有了CLIP模型之後，我們便能夠像Google圖片搜尋一樣，利用以文搜圖的方式查找自己的相片。聽起來不是什麼新發明，但CLIP其實已經做到了物體辨識，它不再只是傳統的「這張照片是狗」、「這張圖裡面有動物」，而是能夠正確的認出單張圖片中的不同概念，例如「狗在玩雪」、「夜晚的台北市交通打結」等。

不只圖像上的突破，OpenAI陸續開發了MuseNet和Jukebox，前者能夠依照使用者輸入的音樂，進一步融合不同風格的演奏，甚至增添樂器，產出新的音樂，它可以模仿莫札特與披頭四，也能用鄉村音樂或者女神卡卡的風格作曲。

▲ 使用者可以到OpenAI的官網使用MuseNet，除了自行上傳MIDI檔案以外，也能從預設的列表選擇樂曲，接著還能改變風格與樂器。（Source：OpenAI）

Jukebox則往前跨了一步。使用者連音樂都不用上傳了，只要提供類型、音樂人、歌詞，Jukebox便能夠產出接近典型CD品質的音樂片段（即取樣 Sampling 的「樣」），時長約為4分鐘。不過，因為Jukebox產出的品質相對較高，因此訓練時間長達數小時，不像MuseNet僅花以秒計的時間便可完成。

除了音樂以外，OpenAI也開發了將文字描述轉譯為程式碼的Codex，還有擅長玩電動的OpenAI Five。不過，OpenAI最厲害的還是其開發出的GPT相關模型，例如第三代GPT-3，它能夠理解人類語句並做出回應，同時也是這次ChatGPT的基石。

隨著人工智慧的逐步發展，人類在「以文生圖」後反思創作、在「以字產樂」後回顧音樂風格，ChatGPT則讓人們尋找機器與人類相似與相異之處。

有了科技巨頭的鼎力相助，我們要問的問題或許不再是有生之年能否見到通用人工智慧的到來，而要改問還要多久就會到來。到了彼時，人類應該如何自處？又要如何尋找或者認可生而為人的價值？藉著他者，更能夠觀照自身。在科技奇點來臨之前，我們還有時間能夠不斷反思。

（本文由遠見雜誌授權轉載；首圖來源：shutterstock）