Google Clips 攝影機+AI=自動判斷有趣的錄影時機

作者 | 發布日期 2018 年 05 月 16 日 9:00 | 分類 AI 人工智慧 , Google , 周邊 follow us in feedly

最近幾年人工智慧技術大幅成長,許多應用也如雨後春筍冒出,能自動判斷錄影時機的 Google Clips 攝影機,就是在人工智慧與機械學習的協助下,讓演算法辨識鏡頭下的人、微笑、寵物、日落、地標等景色,但演算法如何進一步判斷攝影時機,仍是個艱困的挑戰。



透過真人評分

Google Clips 是款不需額外操作,就能自動判斷錄影時機的攝影機,設計理念有三大要點,首先開發團隊希望所有運算能在 Clips 完成,並保有長效電池續航力與降低攝影延遲,優點是不需上傳任何資料到伺服器,不但更能保障使用者隱私,也能在沒有網路連線的環境使用。

再者開發團隊規劃以拍攝短片為主,而非靜態照片,不但有助於記錄歡樂時光的氛圍,也能透過較長的影片彌補單張照片不易抓到完美時機的缺陷。最後,Clips 只專注透過內容的趣味性判斷錄影的起迄時間,並不考慮構圖、光線、色調等攝影技巧。

接下來的問題,就是如何訓練 Clips 演算法,讓它知道怎樣的場景有趣。如同一般機械學習,開發團隊著手建立數千部不同主題影片構成的資料庫,並讓攝影與影片剪輯專家評定影片優劣,讓演算法能以此衡量影片趣味的素材為何。然而這樣又會產生新的問題,那就是我們該如何將影片有系統、平順地 0~100 分中評分。

為了解決這個問題,開發團隊準備了第二套資料庫,他們將影片切割為許多片段,隨機挑選 2 片段,詢問受測者(人類)比較喜歡哪段。讓受測者以「2 選 1」評定,比直接為影片定分數容易許多,且受測者給予的答案也相當接近,當分析 1,000 支影片切出的 5,000 萬片段「2 選 1」數據後,就能透過計算方式得到整部影片(而非片段)的分數(對,數字沒錯。靠人類分析 5,000 萬筆片段是相當累人的工作)。

將資料庫交給類神經網路

有了評分的資料後,接下來開發團隊要定義「影片有趣的原因」,於是他們假設影片中如人物、動物、樹木等景物可能是吸引人的元素,並從 Google 圖像資料庫超過 27,000 筆不同的標籤挑選數百種重要的標籤,用於辨識影片中的景物。

再使用伺服器級的電腦訓練後,開發團隊為運算效能有限的裝置,打造了較小巧的 MobileNet Image Content Model 演算法模型,並挑選更關鍵的標籤,以利將運算能力集中於刀口。

訓練的最後一步,就是將 Image Content Model 演算法模型計算出的數據,與人類評定的分數互相比較,如此一來演算法就知道哪些特徵是人類覺得有趣的部分。如此一來操作過程中,即便畫面景物從未出現於訓練資料,但系統仍可以判斷哪些是人類覺得有趣的部分,進而自行判斷最佳拍攝時機。

開發團隊也提到,由於 Clips 並不像自駕車那類裝置有移動能力,需要使用者放於特定位置或配戴在身上,因此「喬角度」就需依賴使用者的人肉智慧。

(本文由 T客邦 授權轉載;首圖來源:Google