即時翻譯的新時代有機會到來嗎?

作者 | 發布日期 2015 年 07 月 16 日 8:25 | 分類 Google , 網路 , 軟體、系統 follow us in feedly
Flickr/Alan Levine

語言隔閡是人類永遠的遺憾。打從數千年以前,人類便為了跨越語言隔閡而盡心盡力,成效卻不盡理想。千年後的現在,在 Google 與微軟等科技大廠的努力下,翻譯科技擁有長足進步,即時語音翻譯也不再遙不可及,這是否意味著即時翻譯的新時代即將到來呢?人類真的有辦法突破語言的障礙嗎?



Translation_techbang0714-620x540

▲ 理想的即時翻譯功能。

自從電腦問世後,「即時翻譯」就一直是人類的努力的目標,然而世界上的語言種類繁多,語言結構又不盡相同,即時翻譯的實踐難度遠比想像中更加困難。即使是主流的英語,利用翻譯軟體將其翻譯成其他國家的語言,仍然會出現不少錯字與文法錯誤,結構複雜的中文就更不用說了。

縱然即時翻譯目前的成果談不上盡善盡美,還是比以前更為進步。對手機講出一句話,Google 翻譯就可以將其翻譯成其他語言的語音或文字,用於旅遊觀光十分便利。微軟則是於今年 5 月全面開放 Skype 即時口譯功能,允許通話者將通話轉換成其他語言,將來還能夠支援德語與法語等主流語言。

Ruslan Mitkov_techbang0714

▲ 伍爾弗漢普頓大學的計算語言學研究首席──羅斯蘭.密克夫。

英國伍爾弗漢普頓大學的計算語言學研究首席,羅斯蘭.密克夫(Ruslan Mitkov)指出,早在 70 年前的 1947 年,已故美國數學家,瓦倫.偉佛(Warren Weaver)就已經展開機械翻譯的相關研究,可惜結果以失敗收場。

偉佛之所以失敗,癥結在於他將語言翻譯視為數學問題,問題是語言具有很大的不確定性,遠比數學來得複雜,加上當時無論是科技或是觀念都不甚成熟,失敗的結果並不意外。

就這樣,機械翻譯的議題被擱置了十幾年。到了 60 年代,計算機技術蓬勃發展,人類開始研究人工智慧,機械翻譯順勢成為研究主題,但是並沒有值得一提的研究成果。直到 90 年代,計算機技術擁有長足進步,運算速度大幅提升,足以處理資料龐大的語言資料庫,各種翻譯概念與演算法接連問世,機械翻譯才正式嶄露頭角。

Warren Weaver_techbang0714

▲ 機械翻譯的先驅者──瓦倫.偉佛。

「現在,統計機器翻譯(Statistical Machine Translation)已經成為重要的科技領域。在幾個知名大廠的積極投入下,機器翻譯的成果突飛猛進,即時翻譯也不再是遙不可及的夢想。」密克夫說。

談到當今最負盛名的機器翻譯,首推 Google 翻譯。Google 翻譯的效能與泛用性極高,幾乎遠遠凌駕其他的競爭者,Google 究竟是怎麼辦到的?密克夫解釋說,Google 利用將他們在自然語言領域與搜尋領域的優勢來鑽研即時翻譯,經過長時間的研究,才能夠獲得現在的成就。

Google Translate_techbang0714

▲Google 翻譯成就斐然。

現在的 Google 翻譯平均每天處理 1 億次翻譯,而且從 2011 年起提供語音翻譯服務。除了單純的翻譯功能外,Google 翻譯能夠掃描手機所拍攝的照片,辨識出其中的外國文字並加以翻譯,用來翻譯餐廳菜單或路牌非常實用。當然啦,用戶也可以自行輸入詞彙或句子,將其翻譯成對應的語言,或是利用語音翻譯與外國人溝通,超酷的!

「我們早在數十年前,就殷切期盼這些翻譯功能的問世。」Google 的產品管理員,巴洛克.圖洛斯基(Barak Turovsky)表示,「在那之前,如果你告訴別人,你只靠一支手機,就能與講外國語的外國人毫無障礙地對話交流,對方一定會說你瘋了。」

Google Translate in phone_techbang0714

▲ 在手機上使用 Google 翻譯。

即使 Google 翻譯的成就已經非常耀眼,他們仍舊有許多工作要做。圖洛斯基指出,若要將語音翻譯弄得盡善盡美,必須要有更多的語音資料,開發團隊的工程師還得「煞費苦心」地從語音資料中擷取有效的語音樣本,將其加入 Google 的語音資料庫。

Signs Translate_techbang0714

▲ 告示牌也能使用 Google 翻譯閱讀。

「要教導機器了解人類的語言,以及語言中的重音與發聲習慣,無疑是一件複雜無比的事,我們每天都在努力改善機器的表現。若我們替機器加入更多的語音樣本,人們使用 Google 翻譯就能獲得更正確、更有用的結果。」圖洛斯基說。

圖洛斯基點出 Google 翻譯所碰上的難題:語音資料的不足。族群龐大的語言並沒有這種問題,可是對於族群較小(如波斯語),或是不常使用語音翻譯的族群(如許多亞洲國家),Google 翻譯就顯得力有未逮,正確率也不盡理想。Google 必須想辦法鼓勵用戶使用他們的語音翻譯,才能夠帶來更完美的翻譯結果。

discourse_techbang0714

▲ 用德語和英語交談也沒問題。

2014 年 5 月,微軟公開一段 Skype 的即時口譯演出,讓美國人與德國人藉由即時口譯來交談。雖然口譯結果並不十分正確,兩位當事人還是能夠暢談甚歡。微軟研發部門主管的彼得.李(Peter Lee)表示,Skype 口譯的用法就和一般的 Skype 差不多,唯一的差別是彼此不需要會講對方的語言。

「想像一下,你可以將口中的德語,轉換成文法與意義皆正確無誤的英語,Skype 口譯就是你所期待的未來。藉由 Skype 口譯,你幾乎可以跟世界上的任何一個人溝通。」李這麼表示。

Skype Translate_techbang0714

▲Skype 口譯不完美,卻極富潛力。

微軟研究機器翻譯已超過十年,Skype 口譯是最近才展現的成果。工程師原本使用高斯混合模型(GMM,一種古典的語音辨識方法)來建構語音資料,屬於靜態的機率函數。幾年前,工程師認為高斯混合模型的應用效果不佳,便改採類似人腦運作的深度神經網絡(Deep Neuron Networks,DNN),成為微軟的新標準。

2010 年,微軟獲得一次成功的技術躍進。開發部門的法蘭克.賽迪(Frank Seide)等人開發出一套新技術「The Translating Telephone」,能夠將語音即時翻譯為文字,或是口譯為對應的語言。後來微軟便以該系統為基礎,反覆投注語音樣本,使得系統效能提升了 42%,進而促成語音助手 Cortana,以及 Skype 口譯的問世。

The Translating Telephone_techbang0714

▲ 藉由 Skype 口譯與外國人溝通。

就和 Google 翻譯一樣,微軟花了許多心思,蒐集到數量龐大的語音樣本,從社群網路中尋找用戶書寫文字的語言習慣,利用這些資料持續訓練系統,才讓 Skype 口譯具備現在的表現。

文字和語音本質上仍是不同的東西,其中的差別在於語音具有不流暢的混沌本質。舉例來說,我們說話時經常用到發語詞「嗯」、「喔」、「那個」,系統必須將其視為發語詞,避免將其視為口譯目標。

「那些發語詞不屬於語音的字。」微軟的機器翻譯首席,艾盧.曼尼茲(Arul Menezes)在部落格上表示,「有時候,人們會講幾個字,隨後又從頭講出完整的語句。對於幾種特定的語言,像是西班牙語,這種狀況可能正好符合文法架構,要過濾這種狀況十分棘手。我們過去幾年持續努力,部分理由就是為了釐清語言的矛盾,填補文字和語音之間的鴻溝。」

How Skybe Translator Works_techbang0714

▲Skype 口譯的運作流程圖。

語言博大精深,利用機器即時翻譯的難度頗高,卻絕非不可能的任務。人類實際鑽研即時翻譯領域的時間不過區區 20 餘年,能有現在的成果實屬難能可貴。若能夠照這種速度持續進步,或許在你我的有生之年裡,就有機會使用趨近完美的即時翻譯,終結人類自從巴比倫之塔以來的漫長語言隔閡,美好的願景令人期待不已呢。

(本文由 T客邦 授權轉載;首圖來源:Flickr/Alan Levine CC BY 2.0) 

發表迴響