不到三個月又推新模型！DeepSeek-OCR 2 可模擬人類閱讀方式

中國人工智慧公司 DeepSeek 27 日推出升級版光學字符辨識（OCR）模型 DeepSeek-OCR 2，整合阿里巴巴雲的開源系統，以提升性能。DeepSeek 報告顯示，新模型以阿里巴巴輕量級千問 2-0.5b 模型取代架構中關鍵組件之一。

DeepSeek-OCR 2推出距首版模型僅三個多月，顯示中國開源生態系統推動人工智慧發展的日益重要性。DeepSeek表示，以阿里巴巴千問Qwen2-0.5b取代CLIP，OCR能模擬人類閱讀方式，遵循「靈活且語義一致的掃描模式，受內在邏輯結構驅動」。

這次升級還採阿里巴巴DeepEncoder V2，使模型根據語義意義動態重組圖像，讓AI視覺編碼更接近人類邏輯。DeepSeek同時發表論文〈DeepSeek-OCR 2: Visual Causal Flow〉。

模型於OCR任務表現更出色，在視覺─語言任務競爭優勢不小。OCR發表離DeepSeek-V3.2和DeepSeek-V3.2-Speciale並不遠，後兩者可於Google Vertex AI Model Garden等平台使用。

這反映中國企業努力合作，阿里巴巴也不斷開發精進AI，如26日剛推出Qwen3-Max-Thinking，雖與DeepSeek-OCR無關。DeepSeek還未公布DeepSeek-OCR 2基準數據，但已顯示中國AI業開源趨勢持續，挑戰全球對手如Google DeepMind，立志使DeepSeek成為多模態AI的新興強者。

（首圖來源：shutterstock）