
人工智慧因開發成本過高,故門檻也高,但 DeepSeek 出現後,有更多挑戰者加入市場。舊金山 AI 新創 Deep Cogito 最近推出 Cogito v1 全新開源大型語言模型(LLM)系列,基於 Meta Llama 3.2 微調,有混合推理力,快速回答問題,或像 OpenAI 的 o 系列和 DeepSeek R1 能「反思」。
Deep Cogito 核心在獨特訓練法──蒸餾和增強(IDA),與傳統人類回饋強化學習(RLHF)或教師模型蒸餾不同,IDA 分配更多計算資源產生解決方案,然後將推理過程蒸餾至模型參數,建立回饋循環。Deep Cogito CEO 兼聯合創辦人 Drishan Arora 比喻為 Google AlphaGo 自我對弈,只不過改用於自然語言處理。
Deep Cogito 首批模型系列有五種基本規模:30 億、80 億、140 億、320 億和 700 億參數。已在 AI 程式碼共享網站 Hugging Face、Ollama、Fireworks 和 Together AI 應用程式編程接口(API)開放。遵循 Llama 條款,允許商業使用,第三方企業可用於付費產品,每月用戶數不超過 7 億,超過需向 Meta 取得付費許可。Deep Cogito 幾個月內會發表更大模型:參數高達 6,710 億。
基準測試結果,Cogito 模型通用知識、數學推理和多語言任務都表現優異。Cogito 3B(標準模式)在 MMLU 測試比 LLaMA 3.2 3B 高 6.7 個百分點(65.4%對 58.7%),推理模式,Cogito 3B 在 MMLU 得分 72.6%,ARC 得分 84.2%,超過自身標準模式,展示基於 IDA 的反思效果。更大規模 Cogito 8B(標準模式)在 MMLU 得分 80.5%,比 LLaMA 3.1 8B 高 12.8 個百分點。
Cogito 模型原生支援工具調用,是代理和 API 整合系統日益重視的功能。Cogito 3B 支援四種工具調用(簡單、並行、多重和並行多重),LLaMA 3.2 3B 不支援。Cogito 3B 簡單工具調用得分為 92.8%,多重工具調用超過 91%。
企業可受惠低成本 AI
Deep Cogito 開源混合推理模型顯示開源商業許可的特性使企業能低成本部署高性能 AI 模型,無需負擔昂貴的專有模型訂閱費。對中小企業而言,降低 AI 應用門檻,更容易業務自動化和智慧化。同時混合推理能力給企業更靈活 AI 應用場景,需要快速回應的客戶服務場景中,標準模式可以提供即時答案;而在涉及複雜問題解決或決策支援的場景中,推理模式能夠提供更深入的分析和更可靠的結果。企業可以根據不同業務需求,靈活切換模型的工作模式,提高整體效率和準確性。
工具調用原生支援也使企業開發更複雜 AI 時更方便。企業可將 Cogito 模型與系統和 API 整合,開發更強操作功能的 AI 助理或代理人,從查詢資訊到操作無縫過渡。客服 AI 不僅回答問題,還能直接查詢訂單系統、更新客戶資訊或觸發特定流程。對有技術力的企業,Deep Cogito 蒸餾和增強(IDA)提供值得研究的方向。企業可嘗試用類似方法,根據特定範疇數據和任務最佳化基礎模型,開發更適合業務場景的專業 AI 系統。
開源模型逐漸逼近閉源優勢
Deep Cogito 出現與技術路線反映 AI 界幾個關鍵趨勢。首先,開源 LLM 性能差距快速縮小,甚至某些方面超越封閉模型。趨勢可推動更多企業採開源 AI 解決方案,促進開源生態系統成熟。AI 自我改善將成為下階段競爭焦點。Deep Cogito 的 IDA 代表減少依賴人類監督,將來可能會看到更多類似自我最佳化出現,推動 AI 系統向更高層次自主性發展。
模型規模也繼續增長,但更重要的是訓練法和架構創新。Deep Cogito 之後 671B 參數模型是開源界的里程碑,但真正價值在如何創新訓練法使大模型發揮更大效用。混合推理能力也將成為標準規格,將來 AI 系統能自主決定何時需深入思考,何時直接回應,在效率和準確性間取得平衡。
開源 AI 生態系統蓬勃發展代表 AI 成本持續下降,功能提升。現在是時候開始規劃如何將先進開源模型整合至業務流程,以取得競爭優勢。企業也應關注 AI 自我提升能力進度,為將來更強大自主 AI 系統做好準備。
(本文由 Unwire Pro 授權轉載;首圖來源:shutterstock)