人工智慧也能成為你的「眼」?Facebook 測試能解讀影像內容的 App VQA

作者 | 發布日期 2015 年 11 月 05 日 15:14 | 分類 app , Facebook , 尖端科技 follow us in feedly
VQA

當你上傳照片到 Facebook 後,通常系統會詢問你是否要標註照片中的朋友,並提供 Facebook 所辨識出的人臉選項,讓你省去搜尋朋友名字的麻煩,而往後的這項功能將會再進化升級了。Facebook 要將人工智慧用在照片人臉辨識上,怎麼說呢?未來當你點選 Facebook 上的某張照片時,Facebook 還能用語音告訴你照片中有什麼。



在今年 3 月的年度開發大會 F8 上,Facebook 技術長 Mike Schroepfer 介紹了旗下人工智慧團隊(Facebook’s AI Research,FAIR )一手打造的「Memory Networks(MemNets)」技術,這項技術能讓機器進行複雜的問答對話,當時 Schroepfer 現場展示了 MemNets 系統,先讓機器讀取《魔戒》一書的內容摘要資訊,接著再提出如「魔戒被拿到末日火山前被帶到哪裡」這類與魔戒有關的複雜問題,MemNets 系統能夠從先前讀取的內容摘要中,找到符合問題的答案,進而回答問題。

而現在,Facebook 正在測試的 app「VQA(Visual Q&A)」,利用 Facebook 的影像辨識技術結合 MemNets 系統,讓機器能辨識照片中各個不同的部分,並回答使用者所提出的、關於照片內容的各種問題。

例如,在 Facebook 上出現小孩的照片,你可能會問 VQA,「小孩現在在哪裡呢?」或是「小孩在幹嘛呢?」,這時,VQA 便會回答你,「小孩正在浴室」或是「小孩正在刷牙」。

下方為 VQA 技術的示範影片:

 

Visual Question and Answering DemoEarlier this year, we showed some of our work on natural language understanding — specifically, a system called Memory Networks (MemNets) that can read and then answer questions about short texts. In this demo of a new system we call VQA, or visual Q&A, MemNets are combined with our image recognition technology, making it possible for people to ask the machine what’s in a photo.

Facebook Engineering 貼上了 2015年11月3日

 

VQA 對視力有缺損的人來說,無疑是其接觸社群平台的一大幫助。如 Schroepfer 所說,「想像你是視力缺損者,對你來說,要在社群平台上與朋友交流,得依靠視力才能全然參與其中。而你其中一位朋友,捕捉自己剛出生的小孩影像,即便現在已經有科技能讀出社群平台的文字,但你卻缺少了解照片內容的輔助工具」,這時候,VQA 功能就能為視力受損者帶來不少便利。

延伸閱讀:

發表迴響