融入圖像思考能力,OpenAI 發表視覺推理新模型 o3、o4-mini

作者 | 發布日期 2025 年 04 月 17 日 7:44 | 分類 AI 人工智慧 line share Linkedin share follow us in feedly line share
Loading...
融入圖像思考能力,OpenAI 發表視覺推理新模型 o3、o4-mini

如執行長奧特曼(Sam Altman)所預告,OpenAI 16 日發表 o3 和 o4-mini 模型,首次在 CoT(Chain of Thought)具備「以圖像思考」的能力,能夠理解並分析用戶所繪的圖,即使圖像品質不佳也沒問題。至於傳聞已久的 GPT-5 順延,目前未有具體時程。

OpenAI 這次發表 o3、o4-mini 延續去年 9 月推出的首款推理模型 o1,專注於解決複雜問題,並透過多步驟的思考方式來產生答案。其中運用 o3,用戶可以上傳白板筆記、手繪圖或其他圖像,讓 AI 進行分析和討論。這些模型還能進行旋轉、縮放等圖像編輯操作。

OpenAI 指出,o3 在數學、程式設計、科學及圖像理解表現特別出色;而 o4-mini 則具備更快的運算速度與更低的成本,這 2 款自 16 日起向 ChatGPT Plus / Pro / Team 訂閱用戶開放使用。

「我們的推理模型首次能夠獨立使用 ChatGPT 所有工具──包括網頁瀏覽、Python 程式編輯、圖像理解及圖像生成功能。這有助於有效解決複雜的問題,邁向 AI 獨立行動的目標」,OpenAI 表示。

OpenAI 也指出,這 2 款經過「有史以來最嚴格的安全測試」,並依據本週更新的「準備框架」(Preparedness Framework)進行測試。

除此之外,OpenAI 推出一款名為 Codex CLI 的開源編碼代理程式,目的是為開發者提供一個最小介面,他們可以使用它將 OpenAI 模型與自己的程式碼連結,可與 o3 和 o4-mini 配合使用,並且即將支援 GPT-4.1。

▲ 新的 o3、o4-mini 具備「以圖像思考」的能力。

值得一提的是,用戶常常對於 OpenAI 模型命名方式感到困惑,例如 GPT-4o、GPT-4.1、GPT-4.5、o1、o3 等,每款模型還有不同版本。「不如我們就在今年夏天前修正我們模型的命名方式,讓大家在這之前還能多笑我們幾個月(我們確實很值得被笑)」,奧特曼自己在 X 自嘲說。

自 2022 年底推出 ChatGPT 迅速爆紅以來,OpenAI 不斷升級模型能力,從文字延伸至語音、圖像、影像。面對 Google、Anthropic、xAI 及來自中國如 DeepSeek 等競爭,OpenAI 今年以來模型升級更為頻繁。

▲ OpenAI 推出 o3、o4-mini。

(圖片來源:OpenAI

延伸閱讀:

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》