機器翻譯問題幾乎解決，科學家認為人力翻譯走向尾聲

電腦科學家 Vasco Pedro 認為，儘管人工智慧（AI）已經崛起，但機器要像專業翻譯員一樣翻譯語言，始終需要人的參與。但他看到翻譯平台新創公司 Unbabel 舉辦比賽，針對公司最新 AI 模型與人工翻譯員進行比較，他發現人類在翻譯瀕臨結束，目前全球翻譯產業中，人工約占 95%，但未來三年內人類參與度可能降至零。

70 多年前，第一次電腦翻譯是使用一台 IBM 電腦，其程式被編入 250 個英語和俄語單字以及六條語法規則。這種「以規則為基礎」方法到了 1990 年代被基於處理大數據集的「統計」方法取代，而 Google 在 2006 年推出以機器學習為基礎的 Google 翻譯（Google Translate），是當時最先進技術。但到 2016 年，Google 轉用「神經」引擎，即大語言模型（LLM）的前身時，這個領域開始出現爆炸性發展。

在 Unbabel 測試中，人類與機器譯者被要求翻譯各種內容，從隨便的文字訊息到密集的法律合約，還有馬可．奧理略（Marcus Aurelius）所著《沉思錄》舊譯本中的古老英文。從結果來說，Unbabel 的 AI 模組完全不落下風。

另據追蹤翻譯品質的 Multidimensional Quality Metrics（多維品質度量）框架衡量，如果人類精通兩種語言，同時是領域翻譯專家（如處理合約的專業法律譯者），人類表現會比機器更好。但從現在看，Pedro 認為兩三年後，很難想像機器不會完全超越人類。

羅馬 Translated 老闆 Marco Trombetti 創造一種不同的機器翻譯品質測量方法，稱為編輯時間（TTE），這是人類翻譯員檢查機器翻譯謄本所需的時間。當謄本錯誤越多，人類所需的時間越長。在 2017 年至 2022 年間，在十種翻譯最多的語言中，TTE 從每字三秒降至兩秒，Trombetti 預測未來兩年內 TTE 將降至一秒。

翻譯考驗直翻還是融入當地說法

Google 翻譯研究員 Isaac Caswell 指出，那些擁有最多訓練資料的「高資源」（high-resource）語言而言，將句子翻成另個句子的問題「幾乎已經解決」，但要達到多語言人士的水準，或者那些沒大量可用訓練資料的語言而言，是項艱鉅任務。

此外，由於無法規劃、參考長期記憶、從事實資料來源或修改輸出，即使是最好的翻譯工具也很難處理長篇大論的工作或精確任務，另外也可能為了符合目標語言的語法結構，而「幻覺」出他們不需要的資訊。Caswell 認為，「要獲得完美的翻譯，還必須擁有人類水平的智慧，沒有一個有能力的詩人，是很難翻譯俳句的」。

事實上，翻譯長期都在「透明度」（transparency）與「保真度」（fidelity）之間掙扎，該選擇完全照原文翻譯，還是考量目標受眾的感受進行翻譯。前者會保留語詞組的原貌，後者則會改變整個文化參考，翻譯出更貼近當地文化的用語。有時甚至需要比原始資料更多的資訊，例如將「我喜歡你」（I like you）這句話翻成日文，需要知道說話者的性別、他們與對方的關係及對方名字，以避免不禮貌地使用「你」這個字。

進階翻譯需要更多資訊，不只是原始文字

德國 AI 新創 DeepL 創辦人 Jarek Kutylowski 表示，要求提出後續問題、知道何時以透明度換取保真度，以及了解翻譯目的，意味進階翻譯需要更多資訊，而不只是原始文字。

再來是「資源匱乏」（low-resource）語言的問題，這些語言的書面文字稀少，意味翻譯準確性無法透過 LLM 突破來改善。針對這類狀況，Google 團隊建立一套系統，為 15 種非洲語言增加語音到語音的翻譯，這並非根據數千兆位元組的音訊資料進行訓練，而是像小孩一樣學習閱讀書面上的文字，將語音與書面上的字符序列聯繫起來。

即時翻譯軟體 DeepL 也於 11 月推出語音對語音翻譯系統，提供一對一的當面對話和多人視訊聊天的口譯服務。與此同時，Unbabel 展示一款裝置，能讀取手腕或眉毛的細微肌肉動作，並將其與 LLM 產生的文字配對，讓人們無需說話或打字即可進行溝通。該公司打算將這項技術製成一種輔助裝置，用於那些無法自己說話的運動神經病症患者。

Google 翻譯研究員 Caswell 表示，翻譯工具對於探索世界非常有用，但它們只是一種工具，無法取代人類學習語言的經驗，例如真正了解其他人的出身，了解不同地方是什麼樣子。