三、最小二乘法,資料分析的瑞士軍刀
第二個故事的主角是尤拉(euler), 拉普拉斯(lapalace),勒讓德legendre) 和高斯(gauss),故事發生的時間是十八世紀中到十九世紀初。十
七、十八世紀是科學發展的**年代,微積分的發展和牛頓萬有引力定律的建立,直接的推動了天文學和測地學的迅猛發展。當時的大科學家們都在考慮許多天文學上的問題。幾個典型的問題如下:
這些天文學和測地學的問題,無不涉及到資料的多次測量,資料的計算與分析;十
七、十八世紀的天文觀測,也積累了大量的資料需要進行分析和計算。很多年以前,學者們就已經經驗性的認為,對於有誤差的測量資料,多次測量取平均是比較好的處理方法,雖然缺乏理論上的論證,也不斷的受到一些人的質疑。取平均作為一種異常直觀的方式,已經被使用了千百年,在多年積累的資料的處理經驗中也得到一定的驗證,被認為是一種良好的資料處理方法。
以上涉及的問題,我們直接關心的目標量往往無法直接觀測,但是一些相關的量是可以觀測到的,而通過建立數學模型,最終可以解出我們關心的量。這些天文學的問題大體都可以轉換為描述如下的問題:有我們想估計的量 β0
,⋯,β
p, 另有若干個可以測量的量 x1
,⋯,x
p,y, 這些量之間有線性關係y=
β0+β
1x1+
⋯+βp
xp如何通過多組觀測資料求解出引數β0
,⋯,β
p呢? 尤拉和拉普拉斯採用的都是求解線性方程組的方法。 ⎧
⎩⎨⎪⎪
⎪⎪⎪⎪
⎪⎪⎪⎪
y1=β
0+β1
x11+⋯
+βpx
p1y2
=β0+
β1x12
+⋯+β
pxp2
⋮yn=
β0+β
1x1n
+⋯+β
pxpn
但是面臨的乙個問題是,有
n 組觀測資料,p+
1 個變數, 如果
n>p+
1, 則得到的線性矛盾方程組,無法直接求解。 所以尤拉和拉普拉斯採用的方法都是通過一定的對資料的觀察,把
n個線性方程分為 p+
1組,然後把每個組內的方程線性求和後歸併為乙個方程,從而就把
n個方程的方程組劃歸為p+
1個方程的方程組,進一步解方程求解引數。這些方法初看有一些道理,但是都過於 adhoc, 無法形成統一處理這一類問題的乙個通用解決框架。
以上求解線性矛盾方程的問題在現在的本科生看來都不困難,就是統計學中的線性回歸問題,直接用最小二乘法就解決了,可是即便如尤拉、拉普拉斯這些數學大牛,當時也未能對這些問題提出有效的解決方案。可見在科學研究中,要想在觀念上有所突破並不容易。有效的最小二乘法是勒讓德在 1805 年發表的,基本思想就是認為測量中有誤差,所以所有方程的累積誤差為
累積誤差 = ∑(
觀測值 - 理論值 )2
我們求解出導致累積誤差最小的引數即可。 β
ˆ==a
rgmi
nβ∑i
=1ne
2iar
gmin
β∑i=
1n[y
i−(β
0+β1
x1i+
⋯+βp
xpi)
]2勒讓德在**中對最小二乘法的優良性做了幾點說明:
對於最後一點,從統計學的角度來看是很重要的乙個性質。推理如下:假設真值為 θ,
x1,⋯
,xn為n次測量值, 每次測量的誤差為ei
=xi−
θ,按最小二乘法,誤差累積為l(
θ)=∑
ni=1
e2i=
∑ni=
1(xi
−θ)2
求解θ使得 l(
θ)達到最小,正好是算術平均 xˉ
=∑ni
=1xi
n。由於算術平均是乙個歷經考驗的方法,而以上的推理說明,算術平均是最小二乘的乙個特例,所以從另乙個角度說明了最小二乘方法的優良性,使我們對最小二乘法更加有信心。
最小二乘法發表之後很快得到了大家的認可接受,並迅速的在資料分析實踐中被廣泛使用。不過歷史上又有人把最小二乘法的發明歸功於高斯,這又是怎麼一回事呢。高斯在2023年也發表了最小二乘法,並且聲稱自己已經使用這個方法多年。高斯發明了小行星定位的數學方法,並在資料分析中使用最小二乘方法進行計算,準確的**了穀神星的位置。
扯了半天最小二乘法,沒看出和正態分佈有任何關係啊,離題了吧?單就最小二乘法本身,雖然很實用,不過看上去更多的算是乙個代數方法,雖然可以推導出最優解,對於解的誤差有多大,無法給出有效的分析,而這個就是正態分佈粉墨登場發揮作用的地方。勒讓德提出的最小二乘法,確實是一把在資料分析領域披荊斬棘的好刀,但是刀刃還是不夠鋒利;而這把刀的打造後來至少一半功勞被歸到高斯,是因為高斯不單獨自的給出了造刀的方法,而且把最小二乘這把利刀的刀刃造得無比鋒利,把最小二乘打造為了一把瑞士軍刀。高斯拓展了最小二乘法,把正態分佈和最小二乘法聯絡在一起,並使得正態分佈在統計誤差分析中確立了自己的定位,否則正態分佈就不會被稱為高斯分布了。 那高斯這位神人是如何把正態分佈引入到誤差分析之中,打造最小二乘這把瑞士軍刀的呢?看下乙個故事。
正態分佈的前世今生
神說,要有正態分佈,就有了正態分佈。神看正態分佈是好的,就讓隨機誤差就服從了正態分佈。創世紀 數理統計 學過基礎統計學的同學大都對正態分佈非常熟悉。這個鐘型的分布曲線不但形狀優雅,其密度函式寫成數學表示式 f x 1 2 e x 22 2f x 12 e x 22 2 都出現在了公式之中。在我個人的...
高斯 到 正態分佈 的前世今生
學過基礎統計學的同學大都對正態分佈非常熟悉。這個鐘型的分布曲線不但形狀優雅,其密度函式寫成數學表示式 也非常具有數學的美感。其標準化後的概率密度函式 更加的簡潔漂亮,兩個最重要的數學常量 e都出現在了公式之中。在我個人的審美之中,它也屬於top n的最美麗的數學公式之一,如果有人問我數理統計領域哪個...
高斯 到 正態分佈 的前世今生
學過基礎統計學的同學大都對正態分佈非常熟悉。這個鐘型的分布曲線不但形狀優雅,其密度函式寫成數學表示式 也非常具有數學的美感。其標準化後的概率密度函式 更加的簡潔漂亮,兩個最重要的數學常量 e e e都出現在了公式之中。在我個人的審美之中,它也屬於top n的最美麗的數學公式之一,如果有人問我數理統計...