隨著人工智慧(AI)在美國辦公室工作中的應用日益普及,許多員工對於未來的工作穩定性產生疑慮。麻省理工學院(MIT)最近的研究顯示,儘管AI在過去幾年中有所進步,但在特定工作任務中,AI 的表現仍然僅能達到最低標準,且經常出現重大錯誤。
這項研究使用了41種不同的語言模型(LLMs),包括Claude、Gemini和ChatGPT,分析了超過11,000個主要基於文本的任務,並由具備相關工作經驗的人類進行評分。研究的目的是評估AI在無需人類編輯的情況下,能否產出管理者認可的結果。研究結果顯示,AI在許多工作類型中的可靠性有所提高,但在面對更高的標準或複雜任務時,表現仍然不佳。
根據MIT的研究,AI在2025年底的任務中,約65%的表現達到「最低足夠」的標準(得分7分),但在需要多步驟、創造力或精確度的任務中,成功的機率從未超過50%。這意味著,當工作要求更高時,AI取代人類的可能性反而降低。
此外,研究還指出,AI在法律和IT等高技能職位中的成功率較低,而在建築和維護等職業中,AI則能較輕鬆地處理文本任務。這反映出企業在嘗試全面自動化工作時,面臨著許多挑戰。去年,德勤為澳洲和加拿大的政府客戶製作的報告中,發現存在大量虛假資訊,這引發了對AI生成內容的質疑。
儘管AI的技術仍在快速進步,MIT的研究人員估計,AI在分析的任務中的成功率每年可提高最多11個百分點。到2029年,預計大多數AI模型將能夠在「最低足夠」的標準下完成80%至95%的文本任務。然而,AI是否能達到優秀或完美的表現仍然未知。研究人員指出,特別是在對錯誤容忍度低的領域,廣泛的自動化仍然需要時間。
總的來說,AI目前能夠完成一些基本的工作,如草擬、發送電子郵件和數據處理,但尚未達到能夠與人類表現相媲美的水平。
(首圖來源:pixabay)






