微軟把多語言翻譯變得像「面對面」一樣簡單

作者 | 發布日期 2016 年 12 月 15 日 6:46 | 分類 AI 人工智慧 , Microsoft , 軟體、系統 follow us in feedly

「我的父親來自中國、母親來自日本,我在美國長大,我的丈夫是一半法國一半猶太人,」微軟傑出科學家 Lili Cheng 介紹她的家庭溝通難題,「我希望能用母語和每個人溝通,這樣在家裡才是最自然的。」



微軟翻譯(Microsoft Translator)一個新版本將能夠解決這個問題。在舊金山,該公司向包括 PingWest 品玩在內的多家媒體和科技公司展示了已經發表的新版微軟翻譯:兩名用戶語音聊天,一人說英語,使用 PC,另一人說法語,使用智慧手機,兩個人各自的語音可以翻譯成對應的語言,在彼此的裝置上播放。

pingwest 配圖

從圖片中可以看出,這一新版本的介面和傳統的翻譯軟體區別很大,採用了對話的介面──就像 LINE 的群組聊天一樣。

為什麼說是群組聊天?因為對話和翻譯的參與者不只兩個人:在現場的 demo 中,還有另外兩台裝置將所有的對話翻譯成了希伯來語和日語。不僅如此,該公司全球執行副總裁沈向洋也即時加入到聊天中,微軟翻譯將他的中文翻譯成其他參與者對應的語言。

怎麼參與到一個翻譯對話中?不得不說,微軟可能從微信那裡獲得了很多靈感。舉個例子,我在異國的酒吧需要和兩個分別來自法國和德國朋友聊天:首先,我在手機上選擇我的語言並創建一個對話,之後微軟翻譯就生成了一個 5 位代碼和一個二維碼,我的法國朋友在他的應用軟體裡輸入代碼,我的德國朋友掃描二維碼,填寫名字後就可以立刻加入到對話當中,不需要帳號登錄也不需要加好友,和微信的掃碼 / 雷達 / 面對面建群一樣簡單。

pingwest 配圖

我和微軟翻譯產品策略總監奧列維·豐塔納(法語)一起在手機和 PC 上測試新產品。現場的網路訊號不錯,語音翻譯的速度很快,豐塔納一句話還沒說完,我已經在我的手機上看到系統翻譯和不停地修正文字。

有趣的是,這個對話的設定充分借鑒了 IM 軟體的群聊功能,發起者就像群主一樣,可以移除或禁止其他參與者發言,而且當發起者退出時,所有參與者裝置上的對話也同時結束──豐塔納說這個設定出於隱私的考慮。對話結束後,參與者可以選擇退出或者保留對話紀錄(在 PC 上是一個純文本檔案),方便以後使用。

新版本現在已經正式推出,在網頁和 iOS App Store、Windows 10 手機和 Android 應用市場上線,目前語音翻譯已經支持包括中文在內的 9 種全球最常使用的語言,另有希伯來語、泰語和日語等數十種支持文字翻譯。新版本還有一個「演講者模式」功能,可以當成會議演講裝置來使用。

豐塔納對 PingWest 品玩透露,微軟為新版翻譯開發了一個神經機器翻譯系統(Neural Machine),主要由微軟 2015 年推出的 ResNet 深度神經網路和 LSTM(長短時記憶單元)技術兩部分組成,分別負責文字語音辨識和不同語言之間的轉換,整個系統運行在 Azure 雲端計算平台上。豐塔納指出,相較於過去微軟以及各公司使用的統計機器(statistical machine)翻譯,神經機器翻譯的結果更準確,更接近自然語言,方便理解。

pingwest 配圖

讓機器給人的交互感覺和人與人之間的交流越來越接近,是微軟近年來主推的技術方向。從底層技術上,微軟將微軟研究院、亞研等過去相對分離的研究力量整合成了人工智能和研究事業群(AI & Research Group),進一步加深深度神經網路等各種人工智慧底層技術的整合,並加快技術投入生產的節奏。從實現形式上,微軟開始推動「對話式 AI」的理念。包括小冰、微軟翻譯、Skype 聊天機器人等,都是該公司為了實現這一理念所推出的產品。

翻譯是不同語言之間的人類交流必經的流程步驟,但也正因此,在過去大部分翻譯軟體都被定義為工具。然而實際上,翻譯的目的不是翻譯而是溝通,將翻譯工具轉變成對話式的介面,讓翻譯服務於溝通,而不是做為工具,新版微軟翻譯在這一點上做的很有誠意。

(本文由 PingWest 授權轉載) 

關鍵字: , , ,

發表迴響