LeCun 又紅了！1993 年首次文本辨識 CNN 影片衝上 Reddit 熱門榜

提到卷積神經網路大家可能並不陌生，是深度學習（Deep Learning）的經典演算法之一，自 1990 年代以來，在電腦視覺、自然語言處理領域不斷取得驚人結果。

卷積神經網路（Convolutional Neural Networks，CNN）首次用於文本辨識示範是 1993 年的貝爾實驗室（AT&T Bell Laboratories），示範者就是有「CNN 之父」之稱的 Yann LeCun。

最近 LeCun 當年示範影片被網友挖出，並迅速登上 Reddit 熱搜，有近千人點讚。

（Source：Reddit）

有網友評論，示範影片出現前就像通用人工智慧（AGI）和其他難題，這種文本辨識都認為不可能完成。還有不少網友留言，說他們是真正的工程師，向他們致敬。

據悉，這支影片展示世界首次用於文本辨識的卷積神經網路，是之後 CNN 廣泛應用於電腦視覺、自然語言處理領域的重要開端。

CNN：辨識手寫數字任務

1990 年代初，LeCun 加入當時最負盛名的研究機構之一貝爾實驗室。彼時才 32 歲的他，與同事創建可讀取並辨識手寫數字的系統，是典型的點到點圖像辨識系統。

（Source：影片截圖，下同）

示範影片中，系統快速且精準辨識出手寫數字 210-949-4038。據說這是 LeCun 的貝爾實驗室電話號碼。

另外，它在處理更密集更多樣的數字辨識任務時，也表現出良好性能，這在 1990 年代非常難能可貴。

參與這項實驗的研究人員還有實驗室負責人 Rich Howard 和電腦專家 Donnie Henderson。

據了解，此程式開發主要是為了應用於 NCR（National Cash Register Coporation）的支票讀取系統。

總體而言，由於數值計算能力有限、學習樣本不足，加上同時期以支持向量機（Support Vector Machine，SVM）為代表的核學習（kernel learning）法興起，故為了各類圖像處理問題設計的卷積神經網路還停留在實驗室研究階段。

不過到 1998 年，Yann LeCun 及合作者共同構建更完備的卷積神經網路 LeNet-5，並在手寫數字辨識問題取得更進一步的成功。截至 1990 年代末期，此系統處理了美國 10%~20% 支票辨識。

其實 LeNet-5 神經網路早在 1989 年 LeCun 就已提出。LeNet 最初版包含兩個卷積層，2 個全連接層，共計 6 萬個學習參數，規模遠超 TDNN 和 SIANN，且結構與現代卷積神經網路十分接近。

LeCun 於 1989 年發表的《使用反向傳播和神經網路辨識手寫數字》論文，論述網路結構時首次使用「卷積」一詞，「卷積神經網路」自此誕生，之後 LeCun 便被稱為「CNN 之父」。

MNIST 數據集

基於這項實驗，LeCun 還創建了經典手寫數據集 MNIST，是研究機器學習、模式辨識等任務的高品質資料庫，Hinton 稱為「機器學習界的果蠅」。

MNIST 手寫數字圖像資料庫為機器學習基準使用了 20 餘年，包含訓練集和測試集，訓練集有 6 萬個樣本，測試集有 1 萬個樣本，每個樣本都是一張 28×28 畫素的灰度手寫數字圖片。

▲ MNIST 資料庫有各種（0~9）手寫數字。

據悉，MNIST 資料庫抽取自 NIST 資料庫。其中訓練數據來自 2,000 名人口普查局僱員的手寫字，測試數據來自 500 名在校生的手寫字。由於測試集樣本較少，MNIST 很難提供有意義的置信區間。2019 年 6 月，來自 Facebook 和紐約大學的研究者擴展重建資料庫，新增 5 萬個樣本。LeCun 在 Twitter 轉發，新資料庫重生、恢復、擴展了 MNIST。

目前資料庫含以下四類文件：