融入圖像思考能力，OpenAI 發表視覺推理新模型 o3、o4-mini

如執行長奧特曼（Sam Altman）所預告，OpenAI 16 日發表 o3 和 o4-mini 模型，首次在 CoT（Chain of Thought）具備「以圖像思考」的能力，能夠理解並分析用戶所繪的圖，即使圖像品質不佳也沒問題。至於傳聞已久的 GPT-5 順延，目前未有具體時程。

OpenAI 這次發表 o3、o4-mini 延續去年 9 月推出的首款推理模型 o1，專注於解決複雜問題，並透過多步驟的思考方式來產生答案。其中運用 o3，用戶可以上傳白板筆記、手繪圖或其他圖像，讓 AI 進行分析和討論。這些模型還能進行旋轉、縮放等圖像編輯操作。

OpenAI 指出，o3 在數學、程式設計、科學及圖像理解表現特別出色；而 o4-mini 則具備更快的運算速度與更低的成本，這 2 款自 16 日起向 ChatGPT Plus / Pro / Team 訂閱用戶開放使用。

「我們的推理模型首次能夠獨立使用 ChatGPT 所有工具──包括網頁瀏覽、Python 程式編輯、圖像理解及圖像生成功能。這有助於有效解決複雜的問題，邁向 AI 獨立行動的目標」，OpenAI 表示。

OpenAI 也指出，這 2 款經過「有史以來最嚴格的安全測試」，並依據本週更新的「準備框架」（Preparedness Framework）進行測試。

除此之外，OpenAI 推出一款名為 Codex CLI 的開源編碼代理程式，目的是為開發者提供一個最小介面，他們可以使用它將 OpenAI 模型與自己的程式碼連結，可與 o3 和 o4-mini 配合使用，並且即將支援 GPT-4.1。

Introducing OpenAI o3 and o4-mini—our smartest and most capable models to date.

For the first time, our reasoning models can agentically use and combine every tool within ChatGPT, including web search, Python, image analysis, file interpretation, and image generation. pic.twitter.com/rDaqV0x0wE

— OpenAI (@OpenAI) April 16, 2025