【統計學突破】解開高斯相關性猜想,退休統計學家湯瑪斯‧羅炎的神來一筆

作者 | 發布日期 2017 年 04 月 09 日 12:00 | 分類 科技教育 line share follow us in feedly line share
【統計學突破】解開高斯相關性猜想,退休統計學家湯瑪斯‧羅炎的神來一筆


編按:從提出以來,高斯相關性不等式歷經數十年光景,連結機率、計和幾何學三大領域,困擾眾多專家,最後竟是退休的統計學家在廁所想到解法。但這不代表世人都知道他的發現和成果,最後峰迴路轉,報導出現後消息擴散,才讓大家知道他的成就。

2014 年夏天的某一個清晨,陽光如往常一樣穿透白色窗簾照了進來,羅炎起身前往浴室盥洗,一邊刷著牙一邊回想昨晚入睡前那個證明。突然間,一道靈光射進了羅炎的腦袋,困擾數十年的高斯相關性猜想(Gaussian Correlation Inequality Conjecture)終於攻破了大門!

連結機率、統計與幾何的猜想

高斯相關性不等式(GCI)有許多不同的版本,其中最著名的是 1972 年連結機率、統計以及幾何三大領域的版本:

想像一個射飛鏢遊戲,以正中紅心為目標射許多次,飛鏢落點會以紅心為中心呈現類似鐘形的高斯分佈(或者稱常態分布),如果以紅心為中心點同時畫一個圓和一個方形,高斯相關性不等式即是說飛鏢落在圓和方形交集的機率會大於或等於落在圓形的機率乘以落在方形的機率。

P(圓 ∩ 方)≥ P(圓)× P(方)

這裡不同於下面這種大家比較熟知的獨立事件機率,若 A 跟 B 是統計獨立的兩事件,則我們會有這個等式:

P(A∩B)= P(A)× P(B)

直觀來說,由於圓形和方形有重疊部分區域,射中其中一個的情況下,同時也射中另一個的機率會因此提高。

事實上,GCI 猜測是針對任意維度 d 都成立,且兩個同中心的形狀只要是具有對稱性的凸集(symmetrical convex set)即可。

(Source:pixabay)

GCI 猜想的原始型態是統計學中關於信賴區間的估算,由美國統計學家奧利佛‧丹(Olive Dunn)在 1959 年首次提出。

想像我們要針對一群人(已知平均身高是 170 公分,平均體重是 65 公斤),給出一個身高和體重的範圍,使身高體重同時落在此範圍內的人數佔全部的 90% 以上。 這任務可不太容易,因為人的身高和體重是彼此相關,並非獨立的。假設身高和體重分別都呈現高斯分布(常態分布)的情況下,依據[68-95-99.7 法則]我們知道:

P(平均加減兩個標準差)≥ 95% 。

也就是說,如果身高和體重標準差分別是  7  和  8,我們會知道:

  • P(身高介於 156 到 184 的人數)≥ 95%
  • P(體重介於 49 到 81 的人數)≥ 95%

再由高斯相關性不等式可以推得,

P(身高介於 156 到 184 公分且體重介於 49 到 81 公斤的人數)≥0.95 × 0.95 = 0.9025

維度 d=2 的情況早在 1977 年就被維吉尼亞大學的羅倫‧彼特(Loren Pitt)教授證明出來。受訪時,羅倫緩緩地閉起眼睛,說起 1973 年某次和同事吃午餐時聽到這道「簡單」的數學問題時的回憶:

「嘿~羅倫,你知道有個有趣的數學問題  GCI  嗎?就是想像一個射飛鏢遊戲,然後……」

「聽起來滿有意思的,老墨~不過,你說這個還沒有人解出來?!」語氣顯得有點疑惑。

「嗯!還沒有。」

「不太可能吧! 看起來不太難啊,應該很快就可以知道答案了。」我心裡當時這麼想。

「於是,我把自己關進一間房間,打算當我再次走出房門時就已經證明 GCI 是正確的或錯了。」

說到這裡,羅倫張開眼睛望向窗外不發一語。一轉眼已經過了將近 4、50 年……

關於湯瑪斯‧羅炎

故事回到解開謎底的湯瑪斯‧羅炎(Thomas Royen)身上,今年已經 70 歲的他是德國一位退休統計學家,在這次事件之前可能沒什麼人聽過他,這點倒是和前幾年華裔數學家張益唐有點像,某天突然靈光一現洞悉真理的故事在數學界也不算少數,不過這次倒是有幾點值得特別一提的趣事。

要解決一道難題不妨先把它變得更難

首先,數學界有件事情是外界難以想像的。「經常發生一種情況是,解決一道看起來很困難不會解的問題的方法是,把這個問題推廣成一個更難的問題,然後解決它。」

聽起來有點荒謬,打個比方,就好像是一個屢次練習連 10K 都跑不完的跑者,居然去挑戰極地超馬,想藉此證明自己可以跑完 10K。羅炎的證明就是走這個套路,把猜想中高斯分布這個條件推廣到更複雜更一般的情況。神奇的是,問題居然就這樣解了,證明還只用了 3  頁!(不過,有人覺得羅炎的版本太神了,可能不太好體會其奧妙之處,因此寫了個簡易 GCI 版的。)

差點沉沒的寶石

第二,這個影響重大的論文羅炎居然把它投稿到一個名不見經傳的印度期刊,因此使論文 2014 年發表之後又過了兩年才漸漸引起學術界注意。一顆璀璨的鑽石差點就沉沒汪洋大海之中,一個學術上極重要的成果發表兩年後才傳播開來,在這個資訊發達的年代,幾乎是怎麼想都不太可能發生的事情。

但不太可能發生的事情還是發生了。

峰迴路轉

羅炎不會用數學界編輯論文常用的 LaTeX 軟體,論文初稿是用 Word 打的,完成後一份丟上 arXiv,一份寄給一年半以前曾指出他在一篇嘗試證明 GCI 的論文中所犯錯誤的賓州州立大學丹諾‧理查德斯(Donald Richards)教授,當理查德斯收到信件時,一眼他就知道「Bingo!就是你了!」

事後回想起來,理查德斯有幾分懊惱,這個精簡的證明居然自己 30 幾年來都沒有想到。這種心情搞數學的人一生中或多或少都會遇上個幾次吧。

不過,他也慶幸能在有生之年看到 GCI 的美妙證明問世。理查德斯興奮之餘還不忘將這個重大發現通知幾個同事,也熱心幫忙把論文重新用 LaTeX 編輯,讓它看起來專業一點,符合頂尖期刊的水平。

可惜的是,投稿出去還是撞牆,原因是過去數十年來聲稱證明 GCI 猜想的論文每年都有一籮筐,期刊的審稿委員看都看膩了,通常一下子就能指出關鍵性的錯誤所在,要是碰上像羅炎這樣沒沒無聞的傢伙,通常也不會太認真對待。

羅炎的論文因此被草率忽略了!

羅炎的論文因此被草率忽略了!!

羅炎的論文因此被草率忽略了!!!

雖然有人曾建議羅炎投到最頂尖的期刊,像是《統計年鑑》(Annals of Statistics),這樣子一來消息很快就會傳到全世界,不過羅炎考量後還是決定投到很快就可以發表的印度期刊《Far East Journal of Theoretical Statistics》,這種期刊的壞處就是即使刊出後也不太有人知道這件事。一直到 2015 年底 Rafał Latała 和他的學生 Dariusz Matlak 重新寫了一個簡易 GCI 版本的論文,2017 年 3 月 28 日知名雜誌《Quanta Magazine》刊出一篇專欄報導,整個事件才得以散播開來。

最後,羅炎教授受訪時表示,他希望這個意外簡單的證明能夠鼓勵年輕學生,善用自己的創意去尋找新的數學定理,畢竟那並不總需具備非常高深的理論基礎才辦得到。

the surprisingly simple proof … might encourage young students to use their own creativity to find new mathematical theorems, since a very high theoretical level is not always required.

  • L. D. Pitt, A Gaussian correlation inequality for symmetric convex sets, Ann. Probab. 5 (1977), 470– 474.
  • T. Royen, A simple proof of the Gaussian correlation conjecture extended to multivariate gamma distributions, Far East J. Theor. Stat. 48 (2014), 139–145.
  • R. Latala and D. Matlak. Royen’s proof of the Gaussian correlation inequality. ArXiv http://arxiv.org/abs/1512.08776, 2015.
  • A Long-Sought Proof, Found and Almost Lost, Quanta Magazine, 2017/03/28.

(作者:UniMath 主編、逢甲大學應用數學系助理教授陳宏賓;本文由 UniMath 授權轉載;首圖來源:Flickr/Akash Kataruka CC BY 2.0)