人工智慧參與中國高考,得分直逼考生菁英

作者 | 發布日期 2017 年 06 月 08 日 17:20 | 分類 AI 人工智慧 , 機器人 follow us in feedly

這是一個普通的高考考場:考生就坐,準備就緒,開始答題。但這又不是一個普通的中國高考考場:這裡不夠安靜。在一個大約 300 平方公尺的大廳裡,循環大聲播放著一首鋼琴曲,時不時還有女主持人和男性嘉賓的對話。大廳一排排的椅子上坐著興奮而略帶焦躁的觀眾,人們竊竊私語,似乎都對他的解題過程充滿興趣。




特殊考場的較勁

面對音樂和干擾,考生表現出卓越的心理素質。他全神貫注的解題,速度與品質沒有受到外界的絲毫干擾。他解開每一題的速度為 7 15 秒。據熟悉他的人介紹,這是他放慢了 6 倍的結果。

他放慢的原因是:他不僅需要把題目做對,還需要給大家展示他是如何做到的。根據高考要求,他不能直接說話。他也沒有多餘的手來為觀眾進行演算。一切只能透過禮堂前方的大螢幕來展示:左邊是一個由無數藍色光點組成的大腦,每算一題,藍色大腦裡就會跳出若干以紅色、黃色、藍色節點構建的知識鏈。每個節點旁邊有一行白色的字,標註著這題涉及了哪些知識。

螢幕的右邊是正在演算的題目。藍色光標在題目末端閃爍,過一段時間打出一行字:那是他給出的答案。答案閃現的飛快,一些觀眾乾脆從椅子上站起來,想看清楚題目以跟上他思考的速度,但往往還沒有把題目讀完,就已經到了下一題。

時間開始是 6 點 40 分:這比高考要晚了近 5 個小時。不過,在這場為他專門準備的考試裡,才開始了不到 8 分鐘,而他已經快把題目做完了。

最終,他答完了題,花費時間 9 47 秒。

經過數學特級老師、奧賽教練韓兆勇的評審,他的分數最終公布:134 分。

為了衡量這個分數的價值,有 3 組高考狀元陪他一起進行測試:狀元一組得分,119 分。狀元二組得分,140 分。狀元三組得分,146 分。3 組高考狀元平均分 135 分,最終結果是,他的分數以 1 分之差,惜敗於最精英的人類「做題家」。

幾乎在他答完題目的同時,在 2 千公里外的成都,另一個與他類似的考生,也已完成了題目。他們使用相似的螢幕輸出,做一樣的北京市高考數學卷,只不過成都考生用時要比他稍長些:22 分鐘。

半小時後,成都考生也得出了結果:105 分。這個分數不如北京考生一樣顯眼。但對成都考生而言,無疑仍是進步──僅 4 個月前,他的成績只有 93 分。個月的時間,他提升了 12 分。

這是兩位特殊的考生,正是中國歷史上第一次正式參加高考的人工智慧。北京的「考生」是學霸君推出的智慧教育機器人 Aidam,而成都的「考生」則是由成都準星雲學科技有限公司開發的人工智慧系統 AI-Maths 。在恢復高考的第 40 年,它們來了。

▲ 狀元與 Aidam 的最終分數。

人工智慧赴試的價值何在?

為何要讓人工智慧參與高考?人工智慧有可能通過高考嗎?

在李世乭和柯潔先後慘敗於圍棋 AI Alphago 之後,「人機大戰 」成為了許多媒體在報導機器人的過程中常常出現的詞語。或許由於此,在機器人宣布參與高考之後,網友的評論也日趨兩極化。一種聲音認為,人工智慧參與高考,很可能是在「 搭 Alphago 的熱度」,或是認為人工智慧進行高考,就像學生拿計算機算數學題,有何意義?而更多的人,即便承認人工智慧參與高考有價值,也認為以高考的難度,人工智慧要獲取好成績,仍屬不可能。

甚至在知乎「如何評價中國國產機器人將參加 2017 年高考?」問題下,有一個高票答案斷言「當今人工智慧的發展,機器是不可能在非西藏、新疆等省份考入一本的,在新疆西藏考文科還有個一搏,理科是會死路一條。」 對數學的估計是「估計 60~80 比較靠譜」。也有人認為機器必須要聯網才能獲得答案,否則會「老師,if 斷網,404 not found 」。

在兩個人工智慧參與中國高考的前一天(月 日),科大訊飛輪值總裁吳曉如及訊飛研究院院長胡國平接受媒體採訪,對這些問題做出了回應。

據吳曉如披露的內容和相關資料綜合,機器人參加高考,並不是所謂的「人機大戰」後才出現的噱頭。在國家層面,「高考機器人」是國家 863 計劃信息技術領域 「基於大數據的類人智慧關鍵技術與系統」計畫的重要研究目標之一。該計畫由科大訊飛聯合 30 多家科研院校和企業共同參與,早在 2015 年便已開始。

「高考機器人」有多方面的意義:聚集中國一些比較頂級的研究機構和科學家,一起來突破現在人工智慧領域相關的一些重要的技術問題;替代傳統測試人工智慧水準的「圖靈測試」,全方面測試和應用與人工智慧相關的多個領域;最後將這些領域突破所取得的技術成果,運用到相關行業和領域,如翻譯和車載控制等。

目前 「高考機器人」仍在開發和完善之中,要 2019 年才會正式參加考試。但今年參與考試的「考生」 之一準星雲學 AI-Maths,與該計畫有密切關係。資料顯示,準星雲學的核心團隊於 2015 年參與了「基於大數據的類人智慧關鍵技術與系統」,並主導子課題「初等數學問題求解關鍵技術及系統」。後者正是 AI-Maths 技術的重要來源。同時,準星雲學還擁有智能推理解題判卷技術,即將數學知識體系全部串聯成知識網,能夠像人類一樣逐步思考、推理,最終對解題過程進行判定。

而另一個 「考生」Aidam,則來源於學霸君。以拍照搜題為最初產品的學霸君,其產品已經有 7,000 萬註冊用戶,答題搜尋次數超過 100 億,老師線上答疑超過 500 萬次。

這一龐大的題庫和數據積累為 Aidam 的發展打下了基礎,「我發現,原來在我們的題庫裡面,我們記錄了大量的關於狀態之間可跳轉、可推演、可演算、可關聯的資訊。」在講解 Aidam 背後邏輯的時候,學霸君的首席科學家陳銳鋒使用了圍棋為比喻。類似於圍棋棋盤可以被分為無數橫軸和縱軸。人的思維模式和解題模式也可以被具象為棋子,棋子的縱軸與橫軸分別代表起始的狀態和下一步的狀態,這樣,每一次題目的可能解法,就相當於在一個龐大思維矩陣裡下棋的過程。而學霸君之前積累的龐大的題庫與數據紀錄,恰恰類似於無數張圍棋棋譜,為人工智慧自主學習提供了可能性。

儘管目標類似,但不同的背景決定了兩者不同的解題思路,甚至在一定程度上截然相反:準星雲學的 AI-Maths 與 863 計畫的高考機器人思路一致,強調「不聯網、不連接題庫、無人工參與」。在只有少量訓練樣本的情況(只有約 500 套試卷、萬道題的訓練量)以機器建立類似人類的複雜邏輯推理能力與聯想能力。試圖讓機器在較少樣本和較少資源耗費的情況下,擁有「舉一反三」能力。而學霸君的思路則強調大題庫(已經有超過 7,000 萬的巨大題庫),透過大量的題庫、用戶行為數據以及 Ai 自我博弈,從大量題目中找到適合共通的知識元件和解題模式。從某種角度說,這兩種模式的區別類似於 Alphago 早期版本的學習過程,電腦可以透過規則自己對弈,也可以學習棋譜。從之前的測試中看來,Aidam 的成績要好於 AI-Maths,但如果以純粹人工智慧的難度和多行業的延展性,AI-Maths 面對的問題更加複雜。

▲ 陳銳鋒為觀眾講解 AI 原理

得分雖近,但發展之路仍漫長

不過,儘管距離人類只有「分之隔」,但無論是 AI-Maths 還是 Aidam ,仍然有很長的路要走。

在 4 個月前的首次亮相中,AI-Maths 僅得了 93 分。事後,準星雲學 CEO 林輝在接受記者採訪時,認為它失分的重要原因來源於「無法理解題意」,它們缺乏人類生活的常識,它們無法理解「投資」、「理財」這些概念。

在現場,AI-Maths 的研究人員舉了一個例子:它可能解決複雜的數學問題,因為 1~9 的數字它理解起來非常很容易,但是人工智慧要理解「蘋果是什麼」卻很難,因為要具像一顆蘋果,需要非常多描述。人類可以從生活經驗裡習得,而 AI 不能;這也導致在語言相對更複雜、概念更多的應用題領域,AI 的難度要比人類解題大得多。

這一問題同樣困擾 Aidam 的開發者。陳銳鋒簡要介紹了AI 的答題過程必須經過 3 步: 第一步,從自然語言轉為形式語言,需要將複雜的數學題分析其中的語法結構,抽出其中的主謂賓,形成能夠讓 AI 理解的語句。第二步,從形式語言進​​行自我映射、自我推理,並完成最終解題過程。第三步,將解題完成後的機器語言翻譯回人類的語言。僅在解決「如何將幾何語言轉化為機器語言」這一難題上,開發者就花費了整整一年的時間。此次的題目也是由人手工輸入,在一定程度上降低了 AI 解讀的難度。

但從整個 AI 行業而看,AI 對語言的理解,乃至對於主觀題的判斷,又比人們設想的更加迅速。據吳曉如在訪談中介紹,目前科大訊飛的智慧閱卷產品,已經可以達到對主觀題,甚至對語文、英文的作文題都可以自動評分,包括給出詳細評語,甚至可以對學生們使用的優秀句子和名言佳句給予針對性的鼓勵和評點。另一方面,微軟小冰在 2017 年 月 19 日出版的詩集《陽光失了玻璃窗》獲得好評,被認為比起 2016 年的高考作文有了很大的進步。

從以往的技術發展進度看。人工智慧從第一次走進高考考場,到最終解開應用題和語義理解難關,獲取較為優異的高考的各科分數,到有一天考入清華和北大,只是時間問題。或許真正的問題是,之後人們如何與人工智慧相處,乃至借助 AI 的力量,讓教育變得更有品質、更個性化,也更加公平。例如此次的兩家公司:學霸君和準星雲學,其技術都包括了自動批改、智慧評測、學習診斷等功能,這也逐漸成為目前的「AI + 教育」類產品的標配。

這不禁讓人聯想,2017 年 月 日,是中國恢復高考制度 40 週年。這 40 年,高考制度成功的打破了原有的社會壁壘,改寫了無數中國人的命運;那麼下一代,AI 走入教室和考場,是不是能改變人的命運?

(本文由 36Kr 授權轉載;首圖來源:shutterstock)