維基百科也要來機器學習,協助抓出惡意編輯

作者 | 發布日期 2015 年 12 月 02 日 14:45 | 分類 數位內容 , 網路 , 開放資料 follow us in feedly
Revscore_WP

前些時日機器學習的新聞很多,Google 開源其 Tensor FLow 系統,6 天後微軟宣布 DMTK 也要開源,最後連 IBM 也有。如今非營利組織也來湊一角。維基媒體基金會推出物件版本評估服務 (Objective Revision Evaluation Service, ORES),希望用機器學習的方式,找出含有惡意意圖的內容增修,糾出像塗鴨、打廣告這種防不勝防的事情。當然,維基基金會做的專案,一定是預設開源釋出。



維基基金會採用機器學習的技術,對於群眾貢獻而且是處理文字資料的維基百科相當少見。由維基基金會資深研究科學家 Aaron Halfaker 導入 ORES 演算法,希望能夠透過新的程式腳本找出打廣告、塗鴉、大規模破壞等行為,把寶貴的人力用在實際內容產出和人際溝通上。現行的自動化腳本已經運作很久,得有新的技術進來刺激技術革新。

以下為 ORES 採用的三種編輯品質管制 AI 和一種條目品質模式 AI,以及布署的維基百科語言:

context models
damaging goodfaith reverted wp10
dewiki German Wikipedia Yes check.svg
enwiki English Wikipedia Yes check.svg Yes check.svg Yes check.svg Yes check.svg
eswiki Spanish Wikipedia Yes check.svg
fawiki Persian Wikipedia Yes check.svg Yes check.svg Yes check.svg
frwiki French Wikipedia Yes check.svg Yes check.svg
hewiki Hebrew Wikipedia Yes check.svg
idwiki Indonesian Wikipedia Yes check.svg
itwiki Italian Wikipedia Yes check.svg
nlwiki Indonesian Wikipedia Yes check.svg
ptwiki Portuguese Wikipedia Yes check.svg Yes check.svg Yes check.svg
trwiki Turkish Wikipedia Yes check.svg Yes check.svg Yes check.svg
ukwiki Ukranian Wikipedia
viwiki Vietnamese Wikipedia Yes check.svg
wikidatawiki Wikidata Yes check.svg

「藉由結合開放資料和開源機器學習演算法,我們的目標是希望讓維基百科的品質監控更加透明、可審計,並且很容易嘗試。」Halfaker 說。「雖然引進 AI 和機器學習來處理大量社交的事情很怪,但我不覺得我們現在做的事情跟先前的軟體更新有什麼不同。」

ORES-logo

▲ ORES Logo。(Source:wikimedia

維基基金會此次推出 ORES 預估要對抗編輯人數停滯不前甚至下滑的問題,讓機器學習用來糾出惡意編輯,希望能夠讓寶貴的人力用在刀口,也就是實際的內容生產上。

目前英文維基百科已經有幾個品質管制的自動化工具,儘管很成功維持維基百科的品質,但卻同時提高新手貢獻的障礙,這些自動化工具常常回退新手的編輯,因為新手有時候會出於無心,以及不熟悉編輯語法或工具,不小心移除片段。

ORES-damage-prediction-model

▲ ORES 的破壞預測模型。(Source:維基媒體官方部落格截圖

另 一方面,引入自動化工具同時也加強新手指導工作,則能緩和老手跟新手的相處問題,老手對維基上的規距較熟悉,老手對沒編輯的新手會看不順眼,有時候用不知道哪邊翻找來的規章指責新手,或者常會認定新手未照維基方針的內容編寫,是來打廣告、知名度,而嚇跑潛在的貢獻者。用 ORES 能夠讓有經驗的維基編輯,在判斷編輯是否有惡意或廣告意圖時,能夠有客觀的依據,較不會帶有情緒性。

ORES 目前已經在 14 個維基百科語言站啟用,還沒有應用到中文維基百科。現在中文維基百科上也有幾個自動化 AI 的運作,分別偵測單純繁簡轉化、清空整篇文章或章節等破壞行為。

發表迴響