DeepSeek 和開源模型如何撼動人工智慧產業?

作者 | 發布日期 2025 年 02 月 03 日 11:04 | 分類 AI 人工智慧 , 軟體、系統 line share Linkedin share follow us in feedly line share
DeepSeek 和開源模型如何撼動人工智慧產業?

中國人工智慧服務 DeepSeek 發表了開放原始碼的 AI 模型後,引起全球人工智慧產業震驚,為什麼開源模型會造成如此大的衝擊呢?

要談 Open Source(開放原始碼,簡稱開源)AI,當然要先快速理解一下什麼是開源。最簡單的定義就是一套軟體,將它的原始程式碼免費公開在網路上,提供任何人使用和修改。

根據非營利組織開放原始碼促進會(Open Source Initiative, OSI)定義,要被認定是真正開放的 AI 模型,開發者必須提供訓練資料的所有細節,才能讓其他人可以學習、使用和修改,並且不限制用途。

不完全 Open 的開放

除了 DeepSeek,法國的 Mistral 和美國的 Meta(Facebook 母公司)都稱呼自己的 AI 模型是開放原始碼,但他們對「開放」的定義似乎有所不同,他們偷偷省略了一個單字,卻改變了整個定義。

這種稱為 Open Weights 的方式,代表他們並不提供完整的 AI 訓練資料和訓練程式碼,weights 可以理解為「加權」,也就是當一個 AI 模型訓練出來之後,程式設計師替它新增的一些參數,藉此讓模型更符合需求。

以 Meta 為例,他們提供了大型語言模型 Llama 的加權參數和一部分的原始碼,但是不提供訓練資料的細節。OSI 先前也揭發 Meta 對 Llama 的用途增加了限制,在授權時不得使用於商業用途。這樣一來,就和真正的開放 AI 模型不同,其他人只能針對最終成果進行微調,也不能用於商業用途。

最近的話題主角 DeepSeek 也有相同問題,它雖然宣稱是開源,但 R1 模型並沒有提供程式碼和訓練資料,讓人不得不質疑他們的資料來源究竟從何而來?

順帶一提,雖然 OpenAI 名字裡有 Open,他們的程式碼幾乎全都跟開源無關。

開放好不好?

開放原始碼的好處,特別是開源 AI 模型的好處,大致上有 3 個。第一個是普及性,少掉昂貴的授權費,世界各地的開發者都能踩在這些開放模型的肩膀上,做出更多類型軟體,讓 AI 更加普遍。第二是可靠性,開發者彼此都知道這些模型如何運作,更容易維護,精準度自然也更好。基於前面兩點好處,對 Meta 這種大公司來說,開源能夠吸引更廣大的開發者社群,藉此提升影響力。

如果我們將等級拉高到全人類福祉來看,開源 AI 模型也會是比較「善意」的選擇。雲端空間服務 Box 執行長 Aaron Levie 認為,按照現在的發展趨勢,強大而昂貴的 AI 服務提供者,自然會想將它創造的經濟價值圈在自己的護城河裡,而且絕對做得到,一瞬間就會成為科幻故事中主宰地球的超級企業。

但開源也有它的風險,最主要的問題來自於個資保護與資安風險,在日趨敏感的地緣政治關係下,如果民眾大量使用不受管控的開源 AI 服務,可能會導致巨量個人資料落入他國,成為敵國監視本國資訊的管道。對一般用戶來說,也很難辨識出開源程式碼中,是否藏有後門或是任意取用資料的權限漏洞。當然,這不代表大企業推出的軟體就沒有這些風險,但至少還有監管與究責的機會。

軟體歸軟體,政治歸政治?

如果你認為這不過是一個 AI 服務,何必如此政治化,根本就是為反對而反對,那應該先聽聽祖克伯(Mark Zuckerberg)的想法。「這是巨大的地緣政治競爭,中國正在全力衝刺。」Meta 執行長祖克伯上週於專訪中表示,如果世界上要有一個讓所有人都能使用的 AI 模型,應該要是美國模型。

正因為 DeepSeek 採用了和 Meta 相同的「開放」套路,而且不只在中國,而是在美國、歐洲都獲得開發者和使用者廣大迴響,才讓祖克伯更加緊張,其中一個關鍵在於 DeepSeek 似乎找到了一種神奇的訓練方法,能夠用超低成本訓練出 AI 模型。

依據先前 DeepSeek 公佈的白皮書,他們從 V3 模型到最先進的 R1 模型,都只使用算力閹割版的 H800 GPU 運算,而且訓練成本不到 600 萬美元,幾乎是 Meta 的十分之一。同時 DeepSeek R1 對話機器人的實測表現,又在許多方面與 Open AI o1 不相上下,費用則超級便宜,這才引起舉世震驚。

「真 6」還是「蒸餾」?

由於前述 open weights 的機制,DeepSeek 的訓練資料和訓練程式碼成謎,只能知道他們使用了一種稱為「再增強學習」的方法,讓訓練過程更加高效率,套用中國說法,這種「特別 6」的學習力,也引來美國企業和研究者的懷疑,認為這並不是那麼 6,而是被稱為「蒸餾」的旁門左道。

OpenAI 認為 DeepSeek 可能不當的蒸餾了他們的模型,並且正在積極調查。所謂的「蒸餾」,代表利用別的 AI 模型輸出的成果,再來訓練自己的 AI,如此就能夠低成本獲得相似的結果。以下開放留言區各種 DeepSeek 蒸餾梗圖洗板。

回到 open weights 的定義,既然訓練資料沒有公開,只是公開後續微調參數,就可以合理質疑,DeepSeek 只是在 OpenAI 的末端套上了自我審查的參數,這一來它就完成了部分 open 的工作,難怪訓練成本可以這麼低。

目前 DeepSeek 還沒有公開訓練資料的打算,但已經成功重創了美國 AI 產業。美國前總統拜登時期,還無法對開放 AI 模型的限制下決心,但川普任命的白宮 AI 沙皇 David Sacks,近日初步表態,認為私人企業的開發者,應該被允許進行一些「反蒸餾」的設置。

(首圖來源:shutterstock)

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》