正態分佈的前世今生之二

2021-06-10 06:49:24 字數 2534 閱讀 3805

三、最小二乘法,資料分析的瑞士軍刀

第二個故事的主角是尤拉(euler), 拉普拉斯(lapalace),勒讓德legendre) 和高斯(gauss),故事發生的時間是十八世紀中到十九世紀初。十

七、十八世紀是科學發展的**年代,微積分的發展和牛頓萬有引力定律的建立,直接的推動了天文學和測地學的迅猛發展。當時的大科學家們都在考慮許多天文學上的問題。幾個典型的問題如下:

這些天文學和測地學的問題,無不涉及到資料的多次測量,資料的計算與分析;十

七、十八世紀的天文觀測,也積累了大量的資料需要進行分析和計算。很多年以前,學者們就已經經驗性的認為,對於有誤差的測量資料,多次測量取平均是比較好的處理方法,雖然缺乏理論上的論證,也不斷的受到一些人的質疑。取平均作為一種異常直觀的方式,已經被使用了千百年,在多年積累的資料的處理經驗中也得到一定的驗證,被認為是一種良好的資料處理方法。

以上涉及的問題,我們直接關心的目標量往往無法直接觀測,但是一些相關的量是可以觀測到的,而通過建立數學模型,最終可以解出我們關心的量。這些天文學的問題大體都可以轉換為描述如下的問題:有我們想估計的量 β0

,⋯,β

p, 另有若干個可以測量的量 x1

,⋯,x

p,y, 這些量之間有線性關係y=

β0+β

1x1+

⋯+βp

xp如何通過多組觀測資料求解出引數β0

,⋯,β

p呢? 尤拉和拉普拉斯採用的都是求解線性方程組的方法。 ⎧

⎩⎨⎪⎪

⎪⎪⎪⎪

⎪⎪⎪⎪

y1=β

0+β1

x11+⋯

+βpx

p1y2

=β0+

β1x12

+⋯+β

pxp2

⋮yn=

β0+β

1x1n

+⋯+β

pxpn

但是面臨的乙個問題是,有

n 組觀測資料,p+

1 個變數, 如果

n>p+

1, 則得到的線性矛盾方程組,無法直接求解。 所以尤拉和拉普拉斯採用的方法都是通過一定的對資料的觀察,把

n個線性方程分為 p+

1組,然後把每個組內的方程線性求和後歸併為乙個方程,從而就把

n個方程的方程組劃歸為p+

1個方程的方程組,進一步解方程求解引數。這些方法初看有一些道理,但是都過於 adhoc, 無法形成統一處理這一類問題的乙個通用解決框架。

以上求解線性矛盾方程的問題在現在的本科生看來都不困難,就是統計學中的線性回歸問題,直接用最小二乘法就解決了,可是即便如尤拉、拉普拉斯這些數學大牛,當時也未能對這些問題提出有效的解決方案。可見在科學研究中,要想在觀念上有所突破並不容易。有效的最小二乘法是勒讓德在 1805 年發表的,基本思想就是認為測量中有誤差,所以所有方程的累積誤差為

累積誤差 = ∑(

觀測值 - 理論值 )2

我們求解出導致累積誤差最小的引數即可。 β

ˆ==a

rgmi

nβ∑i

=1ne

2iar

gmin

β∑i=

1n[y

i−(β

0+β1

x1i+

⋯+βp

xpi)

]2勒讓德在**中對最小二乘法的優良性做了幾點說明:

對於最後一點,從統計學的角度來看是很重要的乙個性質。推理如下:假設真值為 θ,

x1,⋯

,xn為n次測量值, 每次測量的誤差為ei

=xi−

θ,按最小二乘法,誤差累積為l(

θ)=∑

ni=1

e2i=

∑ni=

1(xi

−θ)2

求解θ使得 l(

θ)達到最小,正好是算術平均 xˉ

=∑ni

=1xi

n。由於算術平均是乙個歷經考驗的方法,而以上的推理說明,算術平均是最小二乘的乙個特例,所以從另乙個角度說明了最小二乘方法的優良性,使我們對最小二乘法更加有信心。

最小二乘法發表之後很快得到了大家的認可接受,並迅速的在資料分析實踐中被廣泛使用。不過歷史上又有人把最小二乘法的發明歸功於高斯,這又是怎麼一回事呢。高斯在2023年也發表了最小二乘法,並且聲稱自己已經使用這個方法多年。高斯發明了小行星定位的數學方法,並在資料分析中使用最小二乘方法進行計算,準確的**了穀神星的位置。

扯了半天最小二乘法,沒看出和正態分佈有任何關係啊,離題了吧?單就最小二乘法本身,雖然很實用,不過看上去更多的算是乙個代數方法,雖然可以推導出最優解,對於解的誤差有多大,無法給出有效的分析,而這個就是正態分佈粉墨登場發揮作用的地方。勒讓德提出的最小二乘法,確實是一把在資料分析領域披荊斬棘的好刀,但是刀刃還是不夠鋒利;而這把刀的打造後來至少一半功勞被歸到高斯,是因為高斯不單獨自的給出了造刀的方法,而且把最小二乘這把利刀的刀刃造得無比鋒利,把最小二乘打造為了一把瑞士軍刀。高斯拓展了最小二乘法,把正態分佈和最小二乘法聯絡在一起,並使得正態分佈在統計誤差分析中確立了自己的定位,否則正態分佈就不會被稱為高斯分布了。 那高斯這位神人是如何把正態分佈引入到誤差分析之中,打造最小二乘這把瑞士軍刀的呢?看下乙個故事。

正態分佈的前世今生

神說,要有正態分佈,就有了正態分佈。神看正態分佈是好的,就讓隨機誤差就服從了正態分佈。創世紀 數理統計 學過基礎統計學的同學大都對正態分佈非常熟悉。這個鐘型的分布曲線不但形狀優雅,其密度函式寫成數學表示式 f x 1 2 e x 22 2f x 12 e x 22 2 都出現在了公式之中。在我個人的...

高斯 到 正態分佈 的前世今生

學過基礎統計學的同學大都對正態分佈非常熟悉。這個鐘型的分布曲線不但形狀優雅,其密度函式寫成數學表示式 也非常具有數學的美感。其標準化後的概率密度函式 更加的簡潔漂亮,兩個最重要的數學常量 e都出現在了公式之中。在我個人的審美之中,它也屬於top n的最美麗的數學公式之一,如果有人問我數理統計領域哪個...

高斯 到 正態分佈 的前世今生

學過基礎統計學的同學大都對正態分佈非常熟悉。這個鐘型的分布曲線不但形狀優雅,其密度函式寫成數學表示式 也非常具有數學的美感。其標準化後的概率密度函式 更加的簡潔漂亮,兩個最重要的數學常量 e e e都出現在了公式之中。在我個人的審美之中,它也屬於top n的最美麗的數學公式之一,如果有人問我數理統計...