好棒棒是好還是不好?專精中文語意分析的藍星球要破解並掌握中文流行潮流

作者 | 發布日期 2017 年 10 月 26 日 10:23 | 分類 網路 follow us in feedly

這年頭不只行銷人員要注意數據,連影藝人員、政治人物也需要注意網路的輿論討論。但與英文相比,在中文環境下要做輿情分析平台仍有不少待克服之處。從台灣大學技術轉移的藍星球,成員擁有 20 年處理中文文字分析能力,推出新的藍星球要努力跟上網路最新潮流。



藍星球 2013 年成立,之前成員在台大資工系就讀碩、博士班,為服務數位典藏資料庫開始發展文字分析技術。因此藍星球在數位典藏計畫結束後,決定成立公司,並獲得台大技轉及台大投資。

藍星球的蛛思 CHOOSE 輿情智慧分析平台,能分析台灣媒體報導的熱點。明年 Q1 將增加分析台灣社群網站資訊的能力,Q3 加入分析中國新聞,Q4 加入分析中國社群網站資訊功能。

藍星球副總經理宋浩博士坦言,儘管很多團隊在做中文語意分析,但成果還不是很好,因此還沒有一家做最好最佳的團隊出線。比起英文每個單字之間有空格,省下很多斷句的工夫,中文字詞間並沒有空格,像是全台大停電指的是什麼,是全台灣大停電,還是學校台大停電了,需要知道實際發生什麼事情,才能判斷。藍星球的方法是用大名詞為句子斷句,之後才用短點的名詞斷句分析句子意思,找出最合理的解釋。

▲ 藍星球蛛思的後台介面。

宋浩博士還舉出中文的字詞詞性分析不易,不像英文有詞性變化。每年新出現的社群流行用詞,如好棒棒,需要搭配字詞出現的平台分析正面或反面意思,像是媽媽寶寶討論區裡好棒棒是指正面例子,而 PTT 好棒棒偏負面表述。他們團隊在勞基法修法之前也猜不到一例一休變成社群常討論的名詞。

▲ 蛛思能夠比較特定類別新聞,以手機新聞為例,能比較兩支手機的功能差異。

藍星球另外還有提供給 B2B 的方案,提供客製化的服務透事 THOUGHTS,能透過藍星球獨家的中文探勘分析系列技術,為公司行銷人員找到茫茫網海需要的寶貴資訊,進一步轉換為公司決策所需的商情。

(首圖來源:藍星球)