電腦科學家 Vasco Pedro 認為,儘管人工智慧(AI)已經崛起,但機器要像專業翻譯員一樣翻譯語言,始終需要人的參與。但他看到翻譯平台新創公司 Unbabel 舉辦比賽,針對公司最新 AI 模型與人工翻譯員進行比較,他發現人類在翻譯瀕臨結束,目前全球翻譯產業中,人工約占 95%,但未來三年內人類參與度可能降至零。
70 多年前,第一次電腦翻譯是使用一台 IBM 電腦,其程式被編入 250 個英語和俄語單字以及六條語法規則。這種「以規則為基礎」方法到了 1990 年代被基於處理大數據集的「統計」方法取代,而 Google 在 2006 年推出以機器學習為基礎的 Google 翻譯(Google Translate),是當時最先進技術。但到 2016 年,Google 轉用「神經」引擎,即大語言模型(LLM)的前身時,這個領域開始出現爆炸性發展。
在 Unbabel 測試中,人類與機器譯者被要求翻譯各種內容,從隨便的文字訊息到密集的法律合約,還有馬可.奧理略(Marcus Aurelius)所著《沉思錄》舊譯本中的古老英文。從結果來說,Unbabel 的 AI 模組完全不落下風。
另據追蹤翻譯品質的 Multidimensional Quality Metrics(多維品質度量)框架衡量,如果人類精通兩種語言,同時是領域翻譯專家(如處理合約的專業法律譯者),人類表現會比機器更好。但從現在看,Pedro 認為兩三年後,很難想像機器不會完全超越人類。
羅馬 Translated 老闆 Marco Trombetti 創造一種不同的機器翻譯品質測量方法,稱為編輯時間(TTE),這是人類翻譯員檢查機器翻譯謄本所需的時間。當謄本錯誤越多,人類所需的時間越長。在 2017 年至 2022 年間,在十種翻譯最多的語言中,TTE 從每字三秒降至兩秒,Trombetti 預測未來兩年內 TTE 將降至一秒。
翻譯考驗直翻還是融入當地說法
Google 翻譯研究員 Isaac Caswell 指出,那些擁有最多訓練資料的「高資源」(high-resource)語言而言,將句子翻成另個句子的問題「幾乎已經解決」,但要達到多語言人士的水準,或者那些沒大量可用訓練資料的語言而言,是項艱鉅任務。
此外,由於無法規劃、參考長期記憶、從事實資料來源或修改輸出,即使是最好的翻譯工具也很難處理長篇大論的工作或精確任務,另外也可能為了符合目標語言的語法結構,而「幻覺」出他們不需要的資訊。Caswell 認為,「要獲得完美的翻譯,還必須擁有人類水平的智慧,沒有一個有能力的詩人,是很難翻譯俳句的」。
事實上,翻譯長期都在「透明度」(transparency)與「保真度」(fidelity)之間掙扎,該選擇完全照原文翻譯,還是考量目標受眾的感受進行翻譯。前者會保留語詞組的原貌,後者則會改變整個文化參考,翻譯出更貼近當地文化的用語。有時甚至需要比原始資料更多的資訊,例如將「我喜歡你」(I like you)這句話翻成日文,需要知道說話者的性別、他們與對方的關係及對方名字,以避免不禮貌地使用「你」這個字。
進階翻譯需要更多資訊,不只是原始文字
德國 AI 新創 DeepL 創辦人 Jarek Kutylowski 表示,要求提出後續問題、知道何時以透明度換取保真度,以及了解翻譯目的,意味進階翻譯需要更多資訊,而不只是原始文字。
再來是「資源匱乏」(low-resource)語言的問題,這些語言的書面文字稀少,意味翻譯準確性無法透過 LLM 突破來改善。針對這類狀況,Google 團隊建立一套系統,為 15 種非洲語言增加語音到語音的翻譯,這並非根據數千兆位元組的音訊資料進行訓練,而是像小孩一樣學習閱讀書面上的文字,將語音與書面上的字符序列聯繫起來。
即時翻譯軟體 DeepL 也於 11 月推出語音對語音翻譯系統,提供一對一的當面對話和多人視訊聊天的口譯服務。與此同時,Unbabel 展示一款裝置,能讀取手腕或眉毛的細微肌肉動作,並將其與 LLM 產生的文字配對,讓人們無需說話或打字即可進行溝通。該公司打算將這項技術製成一種輔助裝置,用於那些無法自己說話的運動神經病症患者。
Google 翻譯研究員 Caswell 表示,翻譯工具對於探索世界非常有用,但它們只是一種工具,無法取代人類學習語言的經驗,例如真正了解其他人的出身,了解不同地方是什麼樣子。
(首圖來源:pixabay)