號稱打敗 Google 翻譯的 DeepL 究竟可不可靠?

作者 | 發布日期 2017 年 09 月 09 日 12:00 | 分類 AI 人工智慧 , 數位內容 , 網路 follow us in feedly

鑑於數據、計算力、演算法等諸多門檻,自神經機器翻譯(NMT)產品化以來,很大程度上便是網際網路巨頭的競技場。



如今,又一個新的挑戰者高調加入,直接把矛頭指向堪稱行業技術標竿的 Google、微軟及 Facebook。

上週,來自德國的 DeepL 翻譯上線,號稱實現了 NMT 技術的新突破,打造出「世界上最精確、語言組織最自然的機器翻譯系統」;並宣布在自家組織的盲測中,打敗了 Google 翻譯、微軟與 Facebook 的 NMT 系統,挑釁意味十足。

目前,DeepL 翻譯已支援英德法西等 42 門歐洲語言,正在訓練漢、日、俄等語言,並計劃將來發表一款 API,讓開發者能將 DeepL 翻譯整合入其應用。

公司前身

首先要說,這家公司的來歷並不簡單。

公司前身是營運近十年的線上外語詞典 Linguee,DeepL 翻譯也完全由 Linguee 團隊打造。Linguee 在中國沒什麽存在感,至於在海外……有 Google 翻譯專美於前,存在感也不是很高,但還是有一批認可它的用戶。

▲ Linguee 的英漢、漢英詞典介面。(Source:Linguee

不過,Linguee 的成敗現在已不重要了,它在今年正式更名 DeepL,以「Deep」提醒 VC 自己是一家正經的深度學習公司。

真正重要的是 Linguee 的技術積累。Linguee 由 Google 翻譯前研究員 Gereon Frahling 在 2007 年離職開發,2009 年正式上線。Linguee 的核心優勢是它的爬蟲和機器學習系統,前者抓取網路上的雙語對照翻譯,後者評估這些翻譯的品質。兩者結合,使 Linguee 成為當時「世界上首個翻譯搜索引擎」。十年積累,Linguee 無論數據或演算法的研究都不可小覷。

▲ 去年在倫敦 Noah 演講的 Gereon Frahling。(Source:YouTube

一年前,研究團隊著手欲實現一個新目標:利用在機器翻譯領域的多年專業積累,打造一套業內最先進的 NMT 系統。這便是 8 月 29 日上線的 DeepL 翻譯。

三大優勢

既然底子厚實,我們來看看這些積累給 DeepL 帶來哪些資源優勢。以下資訊均是 DeepL 一家之言,尚無第三方背書,大家得自行判斷真實性。

數據

Linguee 的數據集有逾十億組對照翻譯語句,號稱世界最大的人工翻譯資料集。 Linguee 能隨時搜尋近似翻譯結果。

計算力

DeepL 在冰島搭建了一台超級電腦,號稱在全球 HPC 中性排名第 23 位,浮點運算能力達 5.1petaFLOPS。因而能實現讓 DeepL 十分自豪的計算速度:每秒處理百萬量級的詞語翻譯。

演算法

採用 CNN 而不是 NMT 產品通用的 RNN。DeepL 宣稱其技術積累使他們克服 CNN 的主要短板,因而實現比基於 RNN 的競品演算法更精確、自然的翻譯結果。

效果展示

DeepL 宣稱其翻譯系統的表現打敗 Google 翻譯、微軟、Facebook 的 NMT 系統, 是基於兩個指標:盲測反饋和 BLEU 分數。

盲測

DeepL 邀請職業翻譯者,對 DeepL 翻譯、 Google 翻譯、微軟翻譯以及 Facebook 的 NMT 系統盲測,要求測試者選出最好的翻譯結果。測試語言為 3 組,分別是英德、英法、英西互譯,樣本為 100 個句子。DeepL 並未公布每組參與測試的職業譯者數量。測試結果如下:

如圖所示,每門測試中,選擇 DeepL 的測試者都最多。 DeepL 在英譯德、英譯法、英譯西的優勢尤其明顯。官方統計是:選擇 DeepL 為最佳翻譯結果的次數,與選擇另外 3 家 NMT 服務的平均比例為 3:1 。

BLEU

BLEU 是業內評估機器翻譯品質最常用的評分演算法,被認為與人類的評判結果有較大相關性。

DeepL 宣布,其英譯德、英譯法的 BLEU 得分超過所有已發表的 NMT 研究,包括 Google Transformer。結果如下:

如圖,在英譯法項目上,DeepL 的 BLEU 分數超過次優方案約 3.5%。

業內觀點

踏入江湖第一天,DeepL 就自封「天下第一」,同行對此怎麽看?雷鋒網諮詢了搜狗語音互動中心總監陳偉、商鵲網 CEO 鄒劍宇,以及 Facebook 機器學習工程師王楊。需要說明的是,3 位老師均表示:由於缺乏關於 DeepL 演算法、資料庫的第一手資料,也沒有來自第三方的資訊,無法對其翻譯水平客觀判斷。商鵲網的 CEO 鄒劍宇評論:「從相關報導中,對演算法的描述並不詳細,沒有論文揭露細節,所以不好理解。」

因此,以下僅為這 4 個看到 DeepL 宣傳訊息後的一些個人看法。

在 Facebook 從事應用機器學習的工程師王楊,聽到這件事的第一反應是懷疑──單是同時勝過 Google 翻譯和 Facebook NMT 這一點,不拿出有足夠說服力的證據就難以取信於人。Google 的NMT 積累深厚,Facebook 的 NMT 也在快速發展。一個新的產品想要如其宣傳那樣實現大幅超越,很難。

若 DeepL 確實在技術上有突破,那麽不排除他們有全新的多語種(multilingual)模型。

至於 DeepL 的演算法模型基於 CNN 而不是 RNN,王楊表示「這從側面支持 Facebook 的研究」。FAIR(Facebook AI Research)一直認為 CNN 在機器翻譯的潛力遠大過 RNN,尤其是計算速度,這也是 Facebook 在 NMT 領域的主要研究方向之一。

搜狗語音互動中心總監陳偉的機器翻譯團隊,剛在 WMT 2017 評測獲得中英、英中兩個翻譯方向的第一名,他認為數據對 DeepL 的貢獻可能遠大過其他因素。而 Linguee 的數據爬取和積累,是一項不小的優勢。

陳偉評論:

從 BLEU 對比看,提升比較明顯,感覺他們十億等級的高品質數據對效果幫助比較大。實測大家都覺得好,這至少說明數據的全面性還是夠的。

據一名德語系譯者說,DeepL 德英互譯的體驗確實不錯,這絲毫不意外──身為一家德國公司,順理成章的,DeepL 重點關注的是德英、法英這些語種的翻譯。這為 DeepL 在這幾門語種的數據積累也提供了一定的聚焦和便利。

DeepL 公布的盲測、BLEU 評分,衡量的均是德、法、西這三門歐洲語言與英語間的互譯。

在演算法方面,陳偉表示:

沒看到他們技術的詳細介紹,只了解使用 CNN 而沒有用 RNN,但是我感覺架構變動不會太大,應該類似 Facebook 的 convs2s。

他並不認可「CNN 是神經機器翻譯未來」說法:

在搜狗的實驗對比中,RNN-NMT、CNN-NMT 和 Google 的 Transformer 框架,3 個技術我們都認真研究和升級過,目前 Transformer 框架已在搜狗翻譯系統上線,從機器評分和人工評測來看,都領先主要競品,較 RNN-NMT、CNN-NMT 提升也比較明顯。

業內也沒有一致觀點認為 CNN 是 NMT 的未來。我覺得技術方案無論 CNN、RNN、Transformer 都沒做到極致,目前主流技術框架到底是什麽沒有定論,算法細節的打磨和多種技術的融合會是未來發展趨勢,另外數據量會是各家公司的技術壁壘。

最後,陳偉總結,根據 DeepL 公布的報告,目前的評測有 3 個地方導致難以評估技術:

  1. 人工評測的測試數據量僅有 100 句,而一般人工評測或者 BLEU 評測會採用幾千句。
  2. DeepL 對比其他家並沒有使用相同的訓練數據集,因此性能無法評估。
  3. 更多技術細節沒有公布,很難把握具體的情況。

商鵲網 CEO 鄒劍宇十分認同數據和計算資源對 NMT 產品的重要性:

報導說其訓練引擎是基於一台冰島超級電腦,可以說深度學習真的很需要計算力。Linguee 本身是一個不錯的語料庫公司,數據積累有自己的特點,這應該是其引擎優秀表現的一個基礎。

對於引擎的評測,Linguee 引擎的盲測很好,BLEU 值超過其他引擎最優質 3 個百分點(行業通論是:2 個 BLEU 值的提高就可以稱為「顯著」)。

對於 BLEU 值究竟能在多大程度上客觀反映翻譯品質,鄒劍宇強調,需要合理看待其參考價值,不可等同於普通人面對翻譯結果的直觀體驗:

翻譯評測有 3 類對象:科研人員、翻譯者和普通閱讀用戶,三者評測的目標和方法不一致。BLEU 是一個科研環境的評測參數,和人的閱讀體驗感受有很大的不同,不可同類而論。

他最後忍不住拿自家產品對比,表示商鵲網的新引擎甚至達到比 Google 翻譯高出 6 個百分點的 BLEU 值。

(本文由 雷鋒網 授權轉載;首圖來源:Linguee)