2 萬所美國院校採用的 AI 閱卷系統出槌,複製原文「關鍵詞」就能得高分

作者 | 發布日期 2020 年 09 月 09 日 8:15 | 分類 AI 人工智慧 , 科技教育 , 網路 line share follow us in feedly line share
2 萬所美國院校採用的 AI 閱卷系統出槌,複製原文「關鍵詞」就能得高分


最近美國一家知名教育平台登上 Reddit 熱搜,原因是有家長爆料,旗下 AI 閱卷系統有重大漏洞,學生只要在答題區寫上零散的「關鍵詞」就能輕鬆拿高分。

事後採訪匿名學生稱:

如果不是閱卷系統的的漏洞,我不會通過代數 2 考試,我只是把與問題相關的關鍵詞填上去,我相信老師都發現了,但他們沒有做任何處理。

據了解,這款 AI 閱卷系統安裝在虛擬學習平台 Edgenuity,目前服務 2 萬所美國院校。爆料者名為 Dana Simmons,是加州大學河濱分校的歷史系副教授。之所以發現 AI 評分系統漏洞,是因為她的學霸兒子 Lazare 在歷史測評只拿到 50% 成績。

隨便寫就能拿高分

Lazare 是高中生,他在 Edgenuity 平台完成歷史考試測評,滿分 100 他只拿到 50 分,這顯然與平時成績差很多,他很傷心。

一開始 Simmons 試圖安慰兒子,也許這次閱卷老師比較嚴格。不過 Lazare 稱,老師並沒有看他的答案,提交試卷不到 1 分鐘成績就出來了。

Simmons 知道這應該是系統演算法自動評分,隨後看了兒子的試卷,似乎並沒有什麼大問題。於是她決定用一道歷史題測試一下 Edgenuity 的評分規則,結果讓她跌破眼鏡。

題目是這樣的:君士坦丁堡的地理位置,如何幫助拜占庭帝國變富有繁榮?

它位於愛琴海和黑海之間,是商船和乘客的集散地。它也處於歐洲和小亞細亞之間,這使它成為巨大的貿易中心,且當時許多貿易路線。利潤、多樣化、西班牙、中國、印度、非洲。

Simmons 稱,她只寫了兩個相關長句,然後又往上堆疊一些不連貫的關鍵詞,如財富、印度、中國、中東,但這種拼湊的「單字沙拉」(Word Salad)形式,系統卻給她滿分。

根據 Edgenuity 官網顯示,系統的評分規則是,如果某些問題的答案不包括關鍵詞,系統會判定為 0 分,如果至少包含一個關鍵詞,則為 100 分。其他問題根據包含的關鍵詞數量獲得一定百分比。

按關鍵詞評分不失為一種好方式,但只按照關鍵詞,顯然會出現明顯失誤。

Simmons 在 Twitter 公開指責 Edgenuity,稱 AI 演算法漏洞不利於教育公平,引起很多網友關注支持。

Edgenuity 公司回應,AI 系統評分只是參考,老師有權修改。

Edgenuity 不會使用演算法代替老師評分,只為老師提供評分指導。老師有能力接受或否決建議的分數,AI 不會決定學生的課程成績。

不過,這回應也被打臉。

事後採訪 Lazare 某位同學表示,老師確實可重新查看學生的試卷,並打最終得分。但他認識的大多數同學都表示,從未見過教師更改 Edgenuity 成績,儘管聽說有同學使用「單詞沙拉」的方法獲取高分。

如果老師在看答案,他們根本不在乎。

「我整個學期都靠它」

重要的是,Simmons 並不是最早發現 Edgenuity 評分漏洞的的人。

一位畢業的高中生 Austin Paradiso 表示,他在高中期間曾多次使用 Edgenuity 平台考試,雖然不喜歡「單字沙拉」,但這種方式確實有助於得高分,且 100% 有效。

據了解,Edgenuity 是美國知名線上虛擬教育機構,已成立 20 多年,提供 K12 教育服務廣泛用於 2 萬多所院校,這服務就包括 Edgenuity 平台內建的 AI 評分系統。

另外,由於今年受疫情影響,大多數美國學校都轉向線上授課模式,教學和評分服務業也選擇外包給虛擬教育平台,Edgenuity 是收到合約最多的。

據統計,Edgenuity 為國中生和高中生提供 300 多堂線上課程,從數學到社會研究各領域。些課程由教學影片、虛擬作業及線上考試組成,Edgenuity 負責提供課程和評分作業。

經過多次考試,很多學生都摸透了系統評分方法。一位學生說,當他不會的時候,會嘗試提交與問題相關的成批關鍵詞,這種方法通常都會奏效。

還有另外一位同學表示,他們會截取原文的關鍵詞貼到答題區,整個上學期都使用這技巧。且每次都能獲得不低分數。

另外 4 個月前,還有學生公然在 Reddit 詢問如何利用 Edgenuity 作弊。

在老師不知情的情況下,如何成功欺騙 Edgenuity?

我發現你們可以輕鬆找到所有答案,我想知道是如何做到的,是否會花時間回答每個問題?

How do I successfully cheat on edgenuity without teacher knowing? from r/edgenuity

發文下方聚集了很多同學評論,分享線上作弊技巧。其中一位學生表示,幾乎每次 Edgenuity 平台考試都會作弊。

此次 Simmons 揭發對 Edgenuity 造成不小影響,有家長公開反對學校使用此虛擬平台,並表示不希望技術影響孩子成績。

AI 閱卷,你怎麼看?

AI 技術參與考試測評系統似乎是必然趨勢,中國有很多相關研究,且一些技術開始逐步落實。阿里巴巴近日發起的百萬獎金數學挑戰賽,便聲稱由自主研發的 AI 擔任輔助閱卷教師。

不過,關於 AI 閱卷的標準性和公平性一直備受爭議。對有標準答案的客觀題來說,AI 的評分能力毋庸置疑,且對一些基礎辨識錯字能力,AI 也有不錯表現,如 2017 年阿里舉辦的 AI 作文評分測試,AI 僅用十幾秒,就在一篇 200 字作文找到 8 個錯別字。

顯然,AI 在提高閱卷效率、減少教師壓力發揮不少作用。但對一些開放式試題,如作文,AI 閱卷則產生不同爭議。

有人認為,AI 閱卷可避免主觀偏見,文本結構、語言表達等形成統一標準,且大量文章累積,也會高於人類教師的評分程度。但也有人表示,AI 評分過於刻板,如 Edgenuity 平台,開放式題目表達是考生的核心思想,人類的情感表達 AI 無法按照對錯來評判。

(本文由 雷鋒網 授權轉載;首圖來源:pixabay

延伸閱讀: