中國幻方成立的 AI 研究公司 DeepSeek 公布最新研究成果,震驚了全世界,無視美國阻止中國發展尖端科技的野心。
幻方的創始團隊在 2015 年組成,其中代表人物為梁文鋒,團隊從零開始探索全自動化交易;到了 2015 年創立幻方量化,依靠數學與 AI 進行量化投資。來到 2023 年 4 月,幻方宣布成立一家研究公司 DeepSeek 以探索 AGI(Artificial General Intelligence,通用人工智慧),本週 20 日釋出的 DeepSeek-R1 模型正式版,在 AI 業界掀起熱烈討論。
「今日發表 DeepSeek-R1,同步開源模型權重。DeepSeek-R1 遵循 MIT 授權條款,允許研究人員以蒸餾技術用 DeepSeek-R1 訓練其他模型」,DeepSeek 表示,而 DeepSeek-R1 基準測試結果可說是追平 OpenAI o1。
同樣在 20 日,中國國務院總理李強主持由專家、企業家及各領域代表參與的座談會,聽取政府工作報告並提出建議,梁文鋒正是其中一員,以自身經驗對 AI 發展提出建言。
🚀 DeepSeek-R1 is here!
⚡ Performance on par with OpenAI-o1
📖 Fully open-source model & technical report
🏆 MIT licensed: Distill & commercialize freely!🌐 Website & API are live now! Try DeepThink at https://t.co/v1TFy7LHNy today!
🐋 1/n pic.twitter.com/7BlpWAPu6y
— DeepSeek (@deepseek_ai) January 20, 2025
▲ 新釋出的 DeepSeek-R1 正式版。
來自美國的 OpenAI 和 Google DeepMind 率先開發推理模型,這是一種相對新穎的 AI 研究領域,試圖使模型接近人類認知能力。其中,OpenAI 先後發表 o1、o3,Google 則有 Gemini 2.0 Flash Thinking Experimental,雙方對研究方法保密到家。
DeepSeek-R1 釋出在矽谷引發激烈爭論,重點在於資源相對充足的美國 AI 公司,是否能夠持續捍衛自身技術優勢。
華盛頓當局禁止 NVIDIA 向中國供應最先進的晶片,無法建構充足算力下,中國當地 AI 公司被迫找出創新方法,盡可能提高既有晶片的算力,而梁文鋒的團隊知道如何解決這樣的問題。
DeepSeek 宣稱,使用供應中國市場的 2,048 個 NVIDIA H800 和不到 600 萬美元訓練一款擁有 6,710 億參數的模型,所需費用遠遠不及 OpenAI 和 Google 訓練同等規模的模型。不只如此,DeepSeeK 願意開源分享研究成果,而不是為了商業利益而保護它。DeepSeek 未從外部資源籌措資金,是靠母公司在對沖基金交易的收益支撐,也沒有採取重大措施將模型商業化。
加州大學柏克萊分校的 AI 政策研究員 Ritwik Gupta 表示,DeepSeek 近來推出模型表明「AI 能力沒有護城河」,認為第一個訓練模型的人必須耗費大量資源才能達成目標,但後進者能以更便宜、更快速的方法辦到。他補充說,中國比起美國擁有更龐大的人才庫,他們了解如何充分利用運算資源,以更便宜的方法訓練、運行模型。
業界人士則表示,儘管 DeepSeek 以有限資源取得受人矚目的成績,但隨 AI 產業發展,能否繼續保有競爭力仍是一個大問題。DeepSeek 面對的美國競爭對手並沒有坐以待斃,他們利用 NVIDIA 下一代 Blackwell 架構晶片建構運算叢集,強大算力有助於拉開競爭差距。
(首圖來源:pixabay)