Google:即使用了機器學習仍有人力幫忙製作地圖空間,但減少人力是努力方向

作者 | 發布日期 2018 年 09 月 12 日 12:50 | 分類 AI 人工智慧 , Google follow us in feedly

不少網站防止 BOT 攻擊的機制採用 CAPTCHA,要你辨識圖像中的數字與文字,從而分辨人類與 BOT。但你知道嗎,這些人類順手之勞的打打字小工作,不少次是幫助 Google 地圖做機器學習,辨識街景中出現的門牌與路名。



即便像 Google 這類大量依靠機器學習的公司,仍有不少地方要靠人工去做,要靠大量的人力協助辨識門牌、路名區塊中,裡面出現的數字或是文字。Google 地圖軟體工程師 Andrew Lookingbill 表示,不只是 Google 地圖採用機器學習的問題,這是整體機器學習技術領域遇到的挑戰。長遠的目標會是減少涉入的人力,但又不會破壞建立的模型,仍然能用既有模型去跑。

Lookingbill 說採用深度學習處理電腦視覺闆題,是相當高難度的事情,街景車每天上街拍攝的照片數量相當龐大,但仍然需要有方式處理。一般人很快就能辨識出門牌及街上路牌上的路名,用深度學習則是挑戰。Google 地圖採用遞歸神經網路 (recurrent neural network, RNN),找出街景車拍攝的照片,辨識不同角度照片中出現的路牌資訊,從中截取需要的路名或是門牌資訊。

▲ 奈及利亞的拉哥斯,Google 運用機器學習找出建築的門牌號碼。(Source:科技新報)

商家的店面入口除了店名之外,還有販售產品資訊、特價優惠等文字。上述資訊也許當地人能找出店家叫什麼,但對於機器來說,以及遠在天邊並不是當地人,訓練 AI 的工程師來說,是相當有挑戰性的事情。Google 地圖團隊運用注意力機制 (Attention Mechanism),從街景車拍攝的店面,找出人類視覺集中之處,從而判斷店家店名。

▲ 運用遞歸神經網路 (recurrent neural network, RNN),訓練演算法辨識不同角度拍的影像,路牌上的路名。(Source:科技新報)

路名常用縮寫表示,而對當地人來說,很容易還原完整的路名,但機器就未必了。Lookingbill 說他們會對路名做規範化 (Normalization) 工作,處理路名中的縮寫,像是 Av. 代表 Avene,Pres. 則是 President 的縮寫。

▲ 運用注意力機制 (Attention Mechanism),模仿人類視覺焦點,從而找出影像中的商家店名。(Source:科技新報)

Lookingbill 還提及 Google 地圖整合經機器學習方式繪製的 1.1 億棟建築外框,補充說道沒有特定加某個地方的建築,而是看那個地方影像適合他們模型,能得到最好的結果。

▲ Google 運用機器學習,最終加了 1.1 億建築到 Google 地圖上。(Source:科技新報)

Google 街景車當初推出是相當大的噱頭,但如今是餵養 Google 機器學習模型的龐大資料。當被問到街景影像以及衛星圖辨識的問題,Lookingbill 說影像如有遮蔭,會增加辨識建築物的困難度。

Lookingbill 談到用機器學習處理地圖資訊,技術本身是其次,而是要怎麼將不斷變動的現實世界,相關變動反映到地圖,而且儘可能縮短地圖資料處理時間。更快速的反映現實變化的地圖,Lookingbill 說這是他們的團隊一直在努力的方向。

(首圖來源:科技新報)