透過 AI 自然語言處理技術,加拿大團隊正試著解開伏尼契手稿內容

作者 | 發布日期 2018 年 01 月 31 日 14:00 | 分類 AI 人工智慧 , 科技教育 follow us in feedly

你聽過伏尼契手稿(Voynich manuscript)嗎?這是約在 15 世紀出版的一本神祕書籍,由於書中語言和字母無人能辨識,自 19 世紀發現以來一直困擾著歷史學家和密碼學家,而加拿大團隊最近運用人工智慧展開新一輪破譯嘗試,並從中獲得些微收穫。



Phys.org 報導,這個團隊是由加拿大阿爾伯塔大學(University of Alberta)電腦科學教授 Greg Kondrak 和研究生 Bradley Hauer 組成。身為狂熱的語言愛好者,Kondrak 的主要工作內容便是自然語言處理(NLP),試圖幫助電腦理解人類語言。

Kondrak 解釋,自然語言處理不僅是為讓人們和電腦溝通的能更簡易方便,也是為了那些以書面形式存在的許多資訊,「我們使用人類語言與其他人交流,但電腦並不理解這種語言,因為這是專為人打造的,我們甚至沒有意識到裡面有多少模糊含意。」

伏尼契手稿共有 240 頁,全書用精美的牛皮紙製成,除了無人能辨識的字母、語言,手稿中也有許多素描插圖,自 19 世紀發現以來,許多頂尖解碼專家都曾積極研究,但最終仍無人能解析內容,一些人甚至認為手稿只是惡作劇。

但 Kondrak 和 Hauer 顯然並不這麼想。為了幫助電腦理解人類語言,他們正在研究該如何運用 AI 協助解析人類語言常出現的歧義內容(ambiguities),而他們的目標正好就是伏尼契手稿。

▲ 手稿除了文字還有許多草藥、天文及生物插圖,部分人甚至認為內容與中世紀煉金術相關。(Source:See page for author [Public domain], via Wikimedia Commons

進行內容解析之前,Kondrak 和 Hauer 必須先確定手稿使用的語言種類,為此他們運用世界人權宣言中 400 種不同語言的樣本進行辨識。起初他們假設手稿是用阿拉伯文寫成,但實際運行演算法之後,卻發現最有可能的反而是希伯來語(Hebrew)。

解析出語言類別後,團隊的目標自然轉向破譯內容的方向進行,但這應該如何做到呢?Kondrak 和 Hauer 先假設手稿是以「alphagrams」方式撰寫──以一個詞語定義另一個,就像人類語言中含糊的詞句,接著他們便運用演算法試圖破譯手稿。

深入研究時團隊發現,伏尼契手稿約 80% 以上單字都能在希伯來語字典找到,但他們並不確定當這些字連在一起時,句子是否有意義。向希伯來學者求助破譯內容的過程失敗後,他們轉向 Google 翻譯尋求協助。

儘管不是全部內容,但 Google 翻譯還是提供一個首次語法通順、且具意義的句子:「她向牧師,房子裡的人,我和人們提出了建議。」

Kondrak 認為,雖然手稿以這樣的句子開始有些奇怪,但句子內容確實有意義。在沒有古希伯來歷史學家的情況下,伏尼契手稿的全部內容仍舊是謎團,但至少這個句子能看作是一個開始,團隊期待未來能將開發的演算法應用到其他類似的古代手稿。

(首圖來源:See page for author [Public domain], via Wikimedia Commons