正態分佈的前世今生之二

三、最小二乘法，資料分析的瑞士軍刀

第二個故事的主角是尤拉(euler), 拉普拉斯(lapalace),勒讓德legendre) 和高斯(gauss),故事發生的時間是十八世紀中到十九世紀初。十

七、十八世紀是科學發展的**年代，微積分的發展和牛頓萬有引力定律的建立，直接的推動了天文學和測地學的迅猛發展。當時的大科學家們都在考慮許多天文學上的問題。幾個典型的問題如下：

這些天文學和測地學的問題，無不涉及到資料的多次測量，資料的計算與分析；十

七、十八世紀的天文觀測，也積累了大量的資料需要進行分析和計算。很多年以前，學者們就已經經驗性的認為，對於有誤差的測量資料，多次測量取平均是比較好的處理方法，雖然缺乏理論上的論證，也不斷的受到一些人的質疑。取平均作為一種異常直觀的方式，已經被使用了千百年,在多年積累的資料的處理經驗中也得到一定的驗證，被認為是一種良好的資料處理方法。

以上涉及的問題，我們直接關心的目標量往往無法直接觀測，但是一些相關的量是可以觀測到的，而通過建立數學模型，最終可以解出我們關心的量。這些天文學的問題大體都可以轉換為描述如下的問題：有我們想估計的量 β0

,⋯,β

p, 另有若干個可以測量的量 x1

,⋯,x

p,y, 這些量之間有線性關係y=

β0+β

1x1+

⋯+βp

xp如何通過多組觀測資料求解出引數β0

,⋯,β

p呢？尤拉和拉普拉斯採用的都是求解線性方程組的方法。 ⎧

⎩⎨⎪⎪

⎪⎪⎪⎪

y1=β

0+β1

x11+⋯

+βpx

p1y2

=β0+

β1x12

+⋯+β

pxp2

⋮yn=

β0+β

1x1n

+⋯+β

pxpn

但是面臨的乙個問題是，有

n 組觀測資料，p+

1 個變數，如果

n>p+

1, 則得到的線性矛盾方程組，無法直接求解。所以尤拉和拉普拉斯採用的方法都是通過一定的對資料的觀察，把

n個線性方程分為 p+

1組，然後把每個組內的方程線性求和後歸併為乙個方程，從而就把

n個方程的方程組劃歸為p+

1個方程的方程組，進一步解方程求解引數。這些方法初看有一些道理，但是都過於 adhoc, 無法形成統一處理這一類問題的乙個通用解決框架。

以上求解線性矛盾方程的問題在現在的本科生看來都不困難，就是統計學中的線性回歸問題，直接用最小二乘法就解決了，可是即便如尤拉、拉普拉斯這些數學大牛，當時也未能對這些問題提出有效的解決方案。可見在科學研究中，要想在觀念上有所突破並不容易。有效的最小二乘法是勒讓德在 1805 年發表的，基本思想就是認為測量中有誤差，所以所有方程的累積誤差為

累積誤差 = ∑(

觀測值 - 理論值 )2

我們求解出導致累積誤差最小的引數即可。 β

ˆ==a

rgmi

nβ∑i

=1ne

2iar

gmin

β∑i=

1n[y

i−(β

0+β1

x1i+

⋯+βp

xpi)

]2勒讓德在**中對最小二乘法的優良性做了幾點說明：

對於最後一點，從統計學的角度來看是很重要的乙個性質。推理如下：假設真值為 θ,

x1,⋯

,xn為n次測量值, 每次測量的誤差為ei

=xi−

θ，按最小二乘法，誤差累積為l(

θ)=∑

ni=1

e2i=

∑ni=

1(xi

−θ)2

求解θ使得 l(

θ)達到最小，正好是算術平均 xˉ

=∑ni

=1xi

n。由於算術平均是乙個歷經考驗的方法，而以上的推理說明，算術平均是最小二乘的乙個特例，所以從另乙個角度說明了最小二乘方法的優良性，使我們對最小二乘法更加有信心。

最小二乘法發表之後很快得到了大家的認可接受，並迅速的在資料分析實踐中被廣泛使用。不過歷史上又有人把最小二乘法的發明歸功於高斯，這又是怎麼一回事呢。高斯在2023年也發表了最小二乘法，並且聲稱自己已經使用這個方法多年。高斯發明了小行星定位的數學方法，並在資料分析中使用最小二乘方法進行計算，準確的**了穀神星的位置。

扯了半天最小二乘法，沒看出和正態分佈有任何關係啊，離題了吧？單就最小二乘法本身，雖然很實用，不過看上去更多的算是乙個代數方法，雖然可以推導出最優解，對於解的誤差有多大，無法給出有效的分析，而這個就是正態分佈粉墨登場發揮作用的地方。勒讓德提出的最小二乘法，確實是一把在資料分析領域披荊斬棘的好刀，但是刀刃還是不夠鋒利；而這把刀的打造後來至少一半功勞被歸到高斯，是因為高斯不單獨自的給出了造刀的方法，而且把最小二乘這把利刀的刀刃造得無比鋒利，把最小二乘打造為了一把瑞士軍刀。高斯拓展了最小二乘法，把正態分佈和最小二乘法聯絡在一起，並使得正態分佈在統計誤差分析中確立了自己的定位，否則正態分佈就不會被稱為高斯分布了。那高斯這位神人是如何把正態分佈引入到誤差分析之中，打造最小二乘這把瑞士軍刀的呢？看下乙個故事。

正態分佈的前世今生之二

正態分佈的前世今生

高斯到正態分佈的前世今生

高斯到正態分佈的前世今生

正態分佈的前世今生之二

正態分佈的前世今生

高斯 到 正態分佈 的前世今生

高斯 到 正態分佈 的前世今生

相關推薦

高斯到正態分佈的前世今生

高斯到正態分佈的前世今生