電腦視覺時代來臨,深度學習演算法能預測照片的可記憶性

作者 | 發布日期 2015 年 12 月 19 日 12:03 | 分類 數位內容 , 網路 , 電腦 follow us in feedly

一群來自美國麻省理工學院(MIT)電腦科學與人工智慧實驗室(Computer Science and Artificial Intelligence Laboratory, CASIL)的研究團隊創造一個可以預測影像或照片中,讓人容易忘記與記憶的區域。目前研究團隊正在擬定以這項功能為原型,設計一個能夠幫助使用者的照片調整成容易讓人印象深刻的應用程式(app)。假如這款應用程式如期上架,將會對教學、行銷和記憶領域有所幫助。



數據集 LaMem 用熱地圖解密影像

對於各張照片,「MemNet」演算法能讓有興趣的使用者在線上體驗這項功能,並創造一個能辨識影像那些區域最能被記住的熱力圖(heat map)。「了解記憶特性能幫助我們系統捕捉最重要的資訊,或是儲存人類有可能遺忘的訊息。」CASIL 研究生,以及這篇論文主要作者 Aditya Khosla 說道。這就像是有群焦點團體能立即告訴你人類是怎麼去記憶視覺訊息。

此外,團隊成員也在構想多款潛在的應用程式,從改善廣告內容和數位媒體照片,到發展更有效率的教學資源,甚至是創造個人的「健康助理」裝置,提醒使用者要記住的事情。

此外,研究團隊也公布世界上數量最多的影像可記憶資料集(image-memorability dataset)LaMem。網站上有著大約 6 萬張照片,每張都有關於影像詳細的註釋資料,像是受歡迎程度或是情緒影響。LaMem 是團隊成員努力想更深一層探討在電腦視覺的主題。

LaMem 的相關成果將會撰寫成論文,由 CSAIL 研究生 Akhil Raju 和教授 Antonio Torralba 和主要研究科學家 Aude Oiliva 共同完成,會由 Khosla 在智利國際電腦視覺會議(International Conference on Computer Vision),發表這篇論文。

神奇的演算法?利用深度學習軟體

不過或許有人會質疑,真的有這麼神奇的系統能夠分辨照片的記憶區與遺忘區嗎?的確,研究團已經發展一個為臉部記憶性運作的演算法。值得關注的是,不僅是這套新程式的辨識度能達到將近人類的準,它還使用「深度學習(deep-learning)」技術。深度學習軟體是指在人工智慧領域使用一款名為「神經網路(neural network)」系統,用來教導電腦篩選大量資料後,能自行找到型式和規律。像是,蘋果的語音助理 Siri、Google 搜尋的自動完成(auto-complete)和臉書(Facebook)照片標籤功能都是利用這項技術,也使得這些科技巨擘願意投資數億資金在研究深度學習的創新公司身上。

神經網路則是在沒有人類給予任何指引情形下,能夠獨自處理相關聯的數據。它們被安排在處理器的不同層階中,而每一層階都在連續執行數據上的隨機運算。當神經網路收到越多數據後,會重新調整並產製更精確的預測。由此特性,研究團隊研究團隊餵養它的演算程式來自不同資料庫、數千萬的影像,包括 LaMem 和以風景導向的 Sun 和 Place。這些影像會基於人類在線上實驗中對內容記憶程度,各自獲得「記性成績」。對於每張影像,演算程式會產生一張熱地圖,上面會顯示哪些部分是影像最容易被記住的區域。藉由強調不同區域,它們具有提高影像記憶性的程度。

未來希望能朝個人化與專門產業研究

這項研究也意外的開啟對人類記憶自然的研究。Khosla 表示:「如果人類只看到最容易記憶的影像,會不會就能記住任何事情呢?」我們一般會認為人類會如同往常一樣,會適應和忘記許多事情,但他們的研究結果卻顯示相反情況。因此,Khosla 認為如果我們呈現難忘的影像,將有提升人類記憶的可能性。團隊下一步的計畫是希望提升系統技術,使能夠預測特定某人的記憶以及為專門產業打造客製化系統,像是零售衣服商和標誌設計。像這樣的研究不但讓科學家更了解人類會注意到哪些視覺資訊,也提供電影製片者和其他內容創作者一個新的探索方向。

(首圖來源:MIT News

發表迴響