學過基礎統計學的同學大都對正態分佈非常熟悉。這個鐘型的分布曲線不但形狀優雅,其密度函式寫成數學表示式
也非常具有數學的美感。其標準化後的概率密度函式
更加的簡潔漂亮,兩個最重要的數學常量ππ,e
'>π,e
'>,e都出現在了公式之中。在我個人的審美之中,它也屬於top-n的最美麗的數學公式之一,如果有人問我數理統計領域哪個公式最能讓人感覺到上帝的存在,那我一定投正態分佈的票。因為這個分布戴著神秘的面紗,在自然界中無處不在,讓你在紛繁蕪雜的資料背後看到隱隱的秩序。
【正態分佈曲線】
正態分佈又通常被稱為高斯分布,在科學領域,冠名權那是乙個很高的榮譽。早年去過德國的兄弟們還會發現,德國的鋼鏰和10馬克的紙幣上都留有高斯的頭像和正態密度曲線。正態分佈被冠名高斯分布,我們也容易認為是高斯發現了正態分佈,其實不然,不過高斯對於正態分佈的歷史地位的確立是起到了決定性的作用。
【德國馬克上的高斯頭像和正態分佈曲線】
正態曲線雖然看上去很美,卻不是一拍腦袋就能想到的。我們在本科學習數理統計的時候,課本一上來介紹正態分佈就給出密度分布函式,卻從來不說明這個分布函式是通過什麼原理推導出來的。所以我一直搞不明白數學家當年是怎麼找到這個概率分布曲線的,又是怎麼發現隨機誤差服從這個奇妙的分布的。我們在實踐中大量的使用正態分佈,卻對這個分布的來龍去脈知之甚少,正態分佈真是讓人感覺既熟悉又陌生。直到我讀研究生的時候,我的導師給我介紹了陳希儒院士的《數理統計學簡史》這本書,看了之後才了解了正態分佈曲線從發現到被人們重視進而廣泛應用,也是經過了幾百年的歷史。
正態分佈的這段歷史是很精彩的,我們通過講一系列的故事來揭開她的神秘面紗。
第乙個故事和概率論的發展密切相關,主角是棣莫弗(de moivre)和拉普拉斯(laplace)。拉普拉斯是個大科學家,被稱為法國的牛頓;棣莫弗名氣可能不算很大,不過大家應該都熟悉這個名字,因為我們在高中數學學複數的時候我們都學過棣莫弗定理
(cosθ
+isinθ)
n=cos(n
θ)+i
sin(n
θ)'>(cosθ+isinθ)n=cos(nθ)+isin(nθ)
(cosθ+isinθ)n=cos(nθ)+isin(nθ).
古典概率論發源於賭博,惠更斯、帕斯卡、費馬、貝努利都是古典概率的奠基人,他們那會研究的概率問題大都來自賭桌上,最早的概率論問題是賭徒梅累在2023年向帕斯卡提出的如何分賭金的問題。統計學中的總體均值之所以被稱為期望(expectation),就是源自惠更斯、帕斯卡這些人研究平均情況下乙個賭徒在賭桌上可以期望自己贏得多少錢。
棣莫弗(de moivre)
拉普拉斯 (laplace)
有一天乙個哥們,也許是個賭徒,向棣莫弗提了乙個和賭博相關的乙個問題:a,b兩人在賭場裡賭博,a,b各自的獲勝概率是p
'>p
p和q=1−
p'>q=1−p
q=1−p,賭n
'>n
n局,若a贏的局數x
>np
'>x>np
x>np,則a付給賭場x−n
p'>x−np
x−np元,否則b付給賭場np−
x'>np−x
np−x元。問賭場掙錢的期望值是多少?
問題並不複雜,本質上是乙個二項分布,最後求出的理論結果是2n
pqb(
n,p,
np),
'>2npqb(n,p,np),
2npqb(n,p,np),其中b
(n,p
,i)=
(ni)
piqn
−i'>b(n,p,i)=(ni)piqn−i
b(n,p,i)=(ni)piqn−i
是常見的二項概率。但是對具體的n
'>n
n,要把這個理論結果實際計算出數值結果可不是件容易的事,因為其中的二項公式中有組合數.這就驅動棣莫弗尋找近似計算的方法。
與此相關聯的另乙個問題,是遵從二項分布的隨機變數x∼b
(n,p
)'>x∼b(n,p)
x∼b(n,p),問x
'>x
x落在二項分布中心點一定範圍的概率pd=
p(|x
−np|
≤d)'>pd=p(|x−np|≤d)
pd=p(|x−np|≤d)是多少?
對於p=12
'>p=12
p=12的情形,棣莫弗做了一些計算並得到了一些近似結果,但是還不夠漂亮,幸運的是棣莫弗和斯特林(stirling)處在同乙個時代,而且二人之間有聯絡,斯特林公式是在數學分析中必學的乙個重要公式:(事實上斯特林公式的形式其實是棣莫弗最先發現的,但是斯特林改進了這個公式,改進的結果為棣莫弗所用)n!
∼2πn
(ne)
n'>n!∼2πn−−−√(ne)n
n!∼2πn(ne)n
2023年,棣莫弗很快利用斯特林公式進行計算並取得了重要的進展。考慮n
'>n
n是偶數的情形,令二項概率b(
i)=b
(n,1
2,i)
=(ni
)(12
)n'>b(i)=b(n,12,i)=(ni)(12)n
b(i)=b(n,12,i)=(ni)(12)n
通過斯特林公式做一些簡單的計算容易得到,b(
n2)∼
2πn
⇒ b(
n2+d
)b(n
2)∼e
xp(−
2d2n
).'>b(n2)∼2πn−−−√⇒b(n2+d)b(n2)∼exp(−2d2n).
b(n2)∼2πn ⇒ b(n2+d)b(n2)∼exp(−2d2n).
於是有b(n
2+d)
∼22π
nexp
(−2d
2n).
'>b(n2+d)∼22πn−−−√exp(−2d2n).
b(n2+d)∼22πnexp(−2d2n).
使用上式的結果,並在二項概率累加求和的過程中近似的使用定積分代替求和,很容易就能得到
p(|x
n−12
|≤cn
)=∑−
cn≤i
≤cnb
(n2+
i) ∼
∑−cn≤i≤
cn22
πnex
p(−2
i2n)
(1)
= ∑−
2c≤2
in≤2
c12π
exp(
−12(
2in)
2)2n
∼ ∫−2c2
c12π
exp(
−x22
)dx.
'>p(∣∣∣xn−12∣∣∣≤cn−−√)=∼=∼∑−cn√≤i≤cn√b(n2+i)∑−cn√≤i≤cn√22πn−−−√exp(−2i2n)(1)∑−2c≤2in√≤2c12π−−√exp(−12(2in−−√)2)2n−−√∫
高斯 到 正態分佈 的前世今生
學過基礎統計學的同學大都對正態分佈非常熟悉。這個鐘型的分布曲線不但形狀優雅,其密度函式寫成數學表示式 也非常具有數學的美感。其標準化後的概率密度函式 更加的簡潔漂亮,兩個最重要的數學常量 e都出現在了公式之中。在我個人的審美之中,它也屬於top n的最美麗的數學公式之一,如果有人問我數理統計領域哪個...
正態分佈的前世今生
神說,要有正態分佈,就有了正態分佈。神看正態分佈是好的,就讓隨機誤差就服從了正態分佈。創世紀 數理統計 學過基礎統計學的同學大都對正態分佈非常熟悉。這個鐘型的分布曲線不但形狀優雅,其密度函式寫成數學表示式 f x 1 2 e x 22 2f x 12 e x 22 2 都出現在了公式之中。在我個人的...
正態分佈的前世今生之二
三 最小二乘法,資料分析的瑞士軍刀 第二個故事的主角是尤拉 euler 拉普拉斯 lapalace 勒讓德legendre 和高斯 gauss 故事發生的時間是十八世紀中到十九世紀初。十 七 十八世紀是科學發展的 年代,微積分的發展和牛頓萬有引力定律的建立,直接的推動了天文學和測地學的迅猛發展。當時...