不到三個月又推新模型!DeepSeek-OCR 2 可模擬人類閱讀方式

作者 | 發布日期 2026 年 01 月 28 日 11:30 | 分類 AI 人工智慧 , DeepAI , 中國觀察 line share Linkedin share follow us in feedly line share
Loading...
不到三個月又推新模型!DeepSeek-OCR 2 可模擬人類閱讀方式

中國人工智慧公司 DeepSeek 27 日推出升級版光學字符辨識(OCR)模型 DeepSeek-OCR 2,整合阿里巴巴雲的開源系統,以提升性能。DeepSeek 報告顯示,新模型以阿里巴巴輕量級千問 2-0.5b 模型取代架構中關鍵組件之一。

DeepSeek-OCR 2推出距首版模型僅三個多月,顯示中國開源生態系統推動人工智慧發展的日益重要性。DeepSeek表示,以阿里巴巴千問Qwen2-0.5b取代CLIP,OCR能模擬人類閱讀方式,遵循「靈活且語義一致的掃描模式,受內在邏輯結構驅動」。

這次升級還採阿里巴巴DeepEncoder V2,使模型根據語義意義動態重組圖像,讓AI視覺編碼更接近人類邏輯。DeepSeek同時發表論文〈DeepSeek-OCR 2: Visual Causal Flow〉。

模型於OCR任務表現更出色,在視覺─語言任務競爭優勢不小。OCR發表離DeepSeek-V3.2和DeepSeek-V3.2-Speciale並不遠,後兩者可於Google Vertex AI Model Garden等平台使用。

這反映中國企業努力合作,阿里巴巴也不斷開發精進AI,如26日剛推出Qwen3-Max-Thinking,雖與DeepSeek-OCR無關。DeepSeek還未公布DeepSeek-OCR 2基準數據,但已顯示中國AI業開源趨勢持續,挑戰全球對手如Google DeepMind,立志使DeepSeek成為多模態AI的新興強者。

(首圖來源:shutterstock)

延伸閱讀:

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》