
AI 的進步速度,幾乎讓人追不上。根據 AI 研究機構 METR(Model Evaluation & Threat Research)這家 AI 系統風險評估的非營利機構,所公布的最新研究,目前最先進的 AI 模型已經能完成長達一小時的任務,但冷靜想想,我們的工作生活有變輕鬆嗎?為什麼每天的信還是自己在回、會議還是得親自安排?AI 明明都能寫小說、畫畫、寫程式了,卻還沒辦法搞定我的日常工作,這到底是怎麼回事?
AI難搞定的,其實是人類的「日常工作」
METR使用的任務時間長度,其實是從特定領域的數據中推算出來的,尤其集中在軟體與程式設計任務上。目前AI展現的完成長時間任務的能力,並不代表它能同樣有效處理其他類型的工作,像是溝通、協調、完成實地工作等。
不同領域的任務複雜度、可拆解性、所需知識背景都不一樣,因此時間長短的可比較性極低。以美國為例,遠距工作約占整體工作任務的35%,而其中真正能以軟體任務表示的比率更低。因此,用這類任務長度來評估「所有工作」的自動化潛力,明顯會高估AI的能力。
讓我們不能忽略的是,研究結果顯示,AI的任務完成率只有50%。這在實驗室中看起來也許還行,但如果放進真實世界,這樣的成功率等於拋硬幣決定工作品質。在真實世界中,多數任務需要95%甚至99%的準確率,才能放心交辦。比如自動駕駛,如果出錯一次可能就是致命風險;再比如回錯一封工作Email,可能就會造成業務誤會或公關危機。
當我們將AI任務成功率標準調高,METR研究指出,當AI達到80%成功率時,它能處理的任務長度就從1小時縮短到15分鐘;而若我們要求99%準確率,推估任務長度甚至會掉到1分鐘以下。這顯示:成功率要求越高,AI可達成的任務長度就越短。
更重要的是,AI目前在表現上的「平均成功率」並不代表「任務一致性」。這代表同一項任務,它有時做得很好,有時卻一塌糊塗,沒有穩定輸出的能力。這在職場上是大忌。即使AI某次寫了一封讓你驚艷的Email,你也無法保證它下一封不會出錯。長久下來,信任感無法建立,自然就不敢放心交辦。
AI不懂人?還是我們不夠「AI友善」?
在METR測試中,多半任務都是封閉式、明確界定範圍的標準作業流程(例如寫一段程式、解決一個錯誤訊息),這些任務比較單純,不需要額外上下文。可是真實世界的工作,常常是開放式、依賴長期互動與環境理解。例如寫一封Email這種「看似小事」的工作,就包含了數個任務:理解來信背景、讀懂人際語氣、知道對方是誰、回應合適內容……這不是一句「寫封信」就能涵蓋的。
說到這裡,我們也不免反思:是不是其實我們的工作流程,對AI來說太「人性化」了?也許我們需要做的,是調整流程,讓工作變得更容易自動化。例如,把回信標準化成幾種情境分類,建立預設回覆;把任務流程切割成模組,逐一輸入給AI。這樣一來,AI就不需要「理解全貌」,只要處理小任務也能大幅減少錯誤率。這其實就是現在許多企業正在進行的「流程AI化」策略。與其等AI變成人類,不如先讓工作變成機器能理解的語言。
AI的確進步飛快,但也別忘了,它進步的是技能,不是智慧。人類之所以能勝任日常工作,不只是因為我們懂得怎麼做事,而是因為我們知道「為什麼要這樣做」。這些理由,可能藏在過往的經驗中,也可能來自人與人之間的微妙關係、職場文化、甚至一點直覺。AI還沒有這種直覺,更無法建立「價值觀」,這讓它在處理工作時難以做出人類那樣靈活的選擇。
這也讓我們對未來的工作有了新的想像。也許AI不會完全取代人類,但它會成為我們的輔助者,把重複性高、流程清楚的任務處理掉,讓人類專注在更需要判斷、創造力與情感的部分。但這樣的未來,也更需要我們學會如何與AI合作,而不是期待它什麼都會做、什麼都能搞定。到那時,或許AI終於能幫你回信,但最重要的決定,還是得你自己來下。
(首圖來源:AI 生成)