中國人工智慧公司 DeepSeek 27 日推出升級版光學字符辨識(OCR)模型 DeepSeek-OCR 2,整合阿里巴巴雲的開源系統,以提升性能。DeepSeek 報告顯示,新模型以阿里巴巴輕量級千問 2-0.5b 模型取代架構中關鍵組件之一。
DeepSeek-OCR 2推出距首版模型僅三個多月,顯示中國開源生態系統推動人工智慧發展的日益重要性。DeepSeek表示,以阿里巴巴千問Qwen2-0.5b取代CLIP,OCR能模擬人類閱讀方式,遵循「靈活且語義一致的掃描模式,受內在邏輯結構驅動」。
這次升級還採阿里巴巴DeepEncoder V2,使模型根據語義意義動態重組圖像,讓AI視覺編碼更接近人類邏輯。DeepSeek同時發表論文〈DeepSeek-OCR 2: Visual Causal Flow〉。
模型於OCR任務表現更出色,在視覺─語言任務競爭優勢不小。OCR發表離DeepSeek-V3.2和DeepSeek-V3.2-Speciale並不遠,後兩者可於Google Vertex AI Model Garden等平台使用。
這反映中國企業努力合作,阿里巴巴也不斷開發精進AI,如26日剛推出Qwen3-Max-Thinking,雖與DeepSeek-OCR無關。DeepSeek還未公布DeepSeek-OCR 2基準數據,但已顯示中國AI業開源趨勢持續,挑戰全球對手如Google DeepMind,立志使DeepSeek成為多模態AI的新興強者。
- DeepSeek taps Alibaba open-source AI technology to boost OCR performance
- DeepSeek Releases DeepSeek-OCR 2 Model AASTOCKS Financial News
- Alibaba releases Qwen3-Max-Thinking, the flagship inference model of Qwen series.
(首圖來源:shutterstock)






