讓圖片為自己說話,Google 和史丹佛打造超智慧的圖說工具

作者 | 發布日期 2014 年 11 月 24 日 11:25 | 分類 Google , 軟體、系統
1124-caption

一張圖勝過千言萬語,但在網路世界裡,圖像只是一個暗物質、一個無法被搜尋到的東西,只因沒有人為那張圖像下註解。不過,Google 和史丹佛大學各有一組人馬致力於打造能用自然語言描述圖像、影像的系統,且雙雙都有重大進展。




Google 科學家在 17 日共同發表一篇文章,為大家描述他們打造的圖像描述系統,文章裡寫到,人類可以輕鬆的從複雜圖像中擷取出重點並描述它,而 Google 正試著讓電腦學會這件事。一旦成功,可以幫助視覺障礙的人了解圖像內容在網速較慢的環境可以用文字描述取代圖像,也更容易在 Google 搜尋到圖像內容

像是一張有兩塊 Pizza 在烤爐上,還有許多調味料、紅酒在一旁的圖片(如下圖),你覺得電腦會如何為這張圖下註解。Google 圖像描述系統下的註解是「Two pizzas sitting on top of a stove top oven」(兩塊 Pizza 在烤箱上的火爐上)。還算精準的描述吧?

1124-Descriptions5

▲Google 圖像描述系統字動生成的圖說:「Two pizzas sitting on top of a stove top oven」(Source:Google research blog

 

圖像描述系統採用的技術:

目前常見的圖像辨識技術,只需要辨識物體、分類、標示。但圖像描述技術需要更深入的知道那個場景中發生了什麼事,捕捉不同物體之間的關聯性,以及把得到的圖說轉換成自然的用語。

Google 和史丹佛的圖像描述系統基本上滿相似的,都是將電腦視覺系統(computer vision)與自然語言處理系統(natural language processing)合併為一個系統,透過機器學習(machine learning)同時訓練它的影像辨識和描述能力。

系統先將影像輸入到迴旋神經網路(convolutional neural network,CNN,用於影像辨識),訓練它從影像中分類物體的能力,然後再用遞歸神經網路(recurrent neural network,RNN,用於生成文字訊息),把CNN解碼過的影像訊息生成為句子。

1124-Descriptions2

▲ Google的圖像描述系統的運作邏輯,先是影像處理,再來是文字處理。(Source:Google research blog

 

1124-Descriptions1

▲史丹佛大學的圖像描述系統用既有資料集裡的圖像、圖說去訓練系統,作出圖像描述系統的模型。(Source:Stanford

 

Google 的圖像描述系統已經在多個資料集上實驗過了,包括 Pascal、Flickr8k、Flickr30k 和 SBU,得到的圖片敘述在質和量上都有很好的成果。史丹佛的圖像描述系統則是在 Flickr8K、Flickr30K 和 COCO 資料集實驗過。

1124-Descriptions3

▲Google圖像描述系統生成的圖說,經由人工為圖說品質評分,分成描述無誤、輕微錯誤、還算與圖片有相關、與圖片無關四種表現。(Source:Google research blog

 

 

(圖片來源:flickr/ jenny downing by CC 2.0) 

發表迴響