「感覺資料都在嘲笑我了」以博客來大數據專案為例，看一個資料科學專案會遇到哪些困難

「誰在買書、買什麼書？一本書的書名要怎麼樣下比較容易暢銷？政黨傾向跟購書行為有沒有關係？」每一年博客來都會發表博客來報告，解讀該年書市的暢銷書。過去多半憑著銷售數字來做，但今年博客來與中研院資訊科學院研究員陳昇瑋的資料洞察實驗室合作，用資料變出了更多新把戲。

資料洞察實驗室利用博客來從 2014 年 12 月到 2016 年 3 月的銷售資料，結合開放資料，讓今年的博客來報告有豐富的購書者輪廓。例如大家熟悉的小說類別，同性愛小說和愛情小說的讀者群較年輕、歷史武俠和文學研究小說的讀者群年齡較長，若深入分析「金庸」這個類別，更存在 15 歲以下的青少年和中年人兩種主要客群。

「過去我們做單一的數據分析，比較常說什麼樣的書賣得比較好。但整合各種博客來以前沒有的資訊過後的結果，都是更加立體的想像。」博客來文化事業部部長張靜如認為。

一個資料科學專案是怎麼開始的？

而對負責這次專案的資料洞察實驗室 5 位成員游為翔、林家慶、周俊川、杜靖愷和張育誠來說，去年 9 月底收到資料、12 月底就要發表報告，短短 3 個月的時間無疑是一大壓力，他們笑說，投注的心力與時間幾乎是實際上的兩倍，「可以說做了半年吧！」

這樣一個資料科學團隊，在實際接軌圖書產業的資料時，遇到過什麼樣的難題？又有什麼收穫？

「面對到的第一個問題，其實就是資料『很髒』。」周俊川說，這讓團隊光是前期在清理資料就花了不少心力。例如說，明明是同一個作者，但在資料上卻有兩種呈現方式，或是外國作者有譯名，但明明是同一人，在每本書的翻譯都不一樣；或者說書名，系列套書在命名時也沒有統一的格式。也因為書名、作者這些資料在欄位上沒有定義，在搜資料時就需要花費很多工夫，只好看到一個規則、就寫一個規則，然後清理，然後再去找一次有沒有漏洞。或者資料的定義不夠清楚，一本書可能分為平裝版、精裝版，但本質上其實都是同一本書。

整個流程中，資料清理花了近兩個月時間、資料分析大概一個月，再來才是最後的統整以及視覺化呈現。有時候做到有點崩潰的時候，看到長成像是「86586^||^1^||^277^||^^||^0^||^0^001064」的資料，「你不覺得那看起來很像笑臉嗎？這時候就覺得連資料都在嘲笑我。」游為翔笑說。

第二，則是資料科學中，領域知識的重要性。「11 月的時候我們去報告一次，回來之後大改方向。」游為翔回憶，經過第一次資料的梳理，得出來的結果多是已知的，這也帶出這次專案執行中最大的困難，其實是最常獲得「喔？這我知道啦，所以呢？」的回應。

因為許多資訊過去是內化在圖書銷售經驗裡頭的。杜靖愷舉例，像是剛開始曾分析出一個結果是會買歐美漫畫的人特別不一樣，他同時也會去看人文社會科學的書。但這一點，圖書專業領域的人都會知道。另外，像是團隊一開始以為書籍的出版日期能夠拿來應用，但在與對方討論的時候才發現日期並沒有一定的規則，如果硬做下去不會有結果。「很多限制無法一開始就知道，要等遇到了才會知道。以為有 pattern（模式）可循，但其實沒有。」

林家慶認為，「他們憑經驗、我們靠驗證，而且用統計的方式呈現關係的存在，但如果要得出更多 insight，就得不斷的換方法、換方向，從錯誤中不斷嘗試。」

▲ 平常做專案的日子，就像這樣長時間待在實驗室裡與資料奮鬥。

而在資料的預測性分析中，團隊最後也利用書籍特徵、書名關鍵字及上市前的市場狀況來發展出暢銷書預測模型，以文學小說暢銷書的預測準確度來說，已經可以接近八成。「心得是，不要先預設立場，不要覺得資料太少太淺，就做不出什麼東西。」林家慶認為。

用數據說話的思維

而在這樣的專案合作中，除了用資料得出更深刻的讀者輪廓之外，用數據說話的思維，其實才是博客來這次導入資料科學方法最大的收穫。

「你要用客觀的方式去表達，用數據去佐證主觀的意見。」張靜如表示，比方說過去博客來在經營圖文書、尤其旅遊類書籍時，會先跟出版社溝通要在網路上放上大量的內頁介紹才會吸引讀者，提升銷售表現，出版社往往只會認為是單方面的說法、不一定全都買單，而這些過去內化在自己的經驗裡的想法，現在可以用數據呈現正相關，說服彼此達成更好的共識。

資料是驗證事實的一種方式，也是開啟未來應用的一把鎖匙。「除了預測未來什麼事發生之外，現在對博客來來說重要的是『怎麼讓它發生？』。我們覺得既然我們有這樣的龐大的資料量，這是可以在好的分析工具之下有更好的應用。」

而在這次合作之前，都沒接觸過圖書產業的資料洞察實驗室成員，也從這樣的過程中得出興趣，即使專案結束，還是持續嘗試更多方法，「例如說書的封面如何量化？我們現在就試著用類神經網路的模型去做。」對一般人來講這很抽象，但資料科學就是要化抽象為結果，從未知到已知，也是從已知到未知的的一門學問。

（本文由數位時代授權轉載）