透過 AutoML 建立模型,數據學家讓機器看拉麵照片就知道是哪家分店

作者 | 發布日期 2018 年 04 月 03 日 16:00 | 分類 AI 人工智慧 , Google , 科技趣聞 follow us in feedly

對拉麵愛好者來說,即使是同口味的拉麵,在不同店家手裡就會有截然不同的味道,但如果是同店家不同分店的差異,在光看照片的情況下,真的能分辨得出來嗎?



如果你也是喜愛日本拉麵的人,那應該也曾聽過「拉麵二郎」的名聲,這間拉麵店在東京近郊有 41 家分店,因為價格便宜、給料大方,在日本受到許多群眾喜愛。由於每家店面都提供相同的基本菜單,即使你是忠實粉絲,也很難光憑賣相就分辨出哪碗是哪家店製作的。

雖然人們或許無法做到,但數據科學家土井賢治相信,深度學習可從一些微小細節辨識出每碗拉麵的不同。

事實上,他在去年便已經自己建立了一個機器學習模型,試著辨識拉麵二郎各分店的拉麵,並在 33,000 張照片、一個月持續調整下,達到 87% 的精確度,但他還想了解 AutoML Vision 能否更有效地做到這點。

AutoML Vision 是 Google 專門為沒有機器學習專業知識的人所設計,可以協助使用者自動創建自定義的機器學習模型,使用上也非常簡單,你只需要上傳標記好的圖片庫,待模型自動訓練後就可以進行。

AutoML Vision 不只能幫助無經驗者,同時也能為專家加快整體訓練的速度。土井的案例中,他從拉麵二郎的各家店面收集了 48,000 張拉麵照片,標記好後上傳系統,花費了大約 24 小時自動訓練後便成功建立模型。

而模型得出的結果也非常令人印象深刻:從照片中預測店面的準確率達到了 94.5%。

▲ 拉麵二郎的混淆矩陣:直行=預測商店,橫列=實際商店。

但 AutoML 究竟如何分辨出每碗拉麵的差異?最初 Kenji 認為,模型可能是由照片中配件的差異去判斷──像是碗、桌子的顏色或形狀,但這已證實不太可能,因為即使每個店面都使用相同的碗和桌子設計,該模型的準確率仍非常高。

現在 Kenji 的新理論是,或許模型夠細緻到可從「肉片切割方式」或「配料提供細節」分辨出微妙差異,他計劃繼續對 AutoML 進行試驗,看看他的理論是否屬實。

就像 AlphaGo 跳脫人類邏輯的下棋風格,我們雖然仍無從得知 AutoML 判斷拉麵來源的細節,但至少可以確定的是:機器絕對不是以口味來分辨的。只能安慰自己,或許這也算人類有優勢之處。

(圖片來源:Google Blog