對於乙個正態總體 \(n(\mu,\sigma^2)\),若其中兩個引數未知,而我們卻擁有一組資料的觀測值,我們設\(\mu=\theta_1,\sigma^2=\theta_2\),由一元正態分佈的概率密度函式我們容易得出此式:
\[f(x;\theta_1,\theta_2)=(\sqrt)^exp\left\(x-\theta_1)^2\right\},x\in(-\infty,\infty)
\]若我們要依據這些獨立同分布的隨機樣本來對引數的未知值進行估計,我們就需要構造出乙個函式:\(\hat_i=\hat_i(x_1,\dots,x_n)\),我們稱統計量\(\hat_i\)為\(\theta_i\)的估計量,由於位置引數\(\theta_i\)是數軸上的乙個點,於是這樣的估計稱之為點估計。
設總體分布為\(f(x;\theta_1,\dots,\theta_k)\),則他的矩在資料量較大時為:
\]得到乙個方程組:
\[\alpha_m(\theta_1,\dots,\theta_k)=a_m,(m=1,\dots,k)
\]藉此方程組,我們可以得到\(k\)個根\(\hat=\hat(x_1,\dots,x_n)\),就以\(\hat\)作為\(\theta_i\)的估計,這樣定出的估計量叫做矩估計。
設有總體分布為\(f(x;\theta_1,...,\theta_k),x_1,...,x_n\)為這個總體抽出的樣本,則樣本的分布為:
\[l(x_1,...,x_n;\theta_1,...,\theta_k)=f(x_1;\theta_1,...,\theta_k)f(x_2;\theta_1,...,\theta_k)\cdots f(x_n;\theta_1,...,\theta_k)
\]這個函式對不同的\((\theta_1,...,\theta_k)\)的取值反映了在觀測結果下的引數取值的似然程度,於是我們稱\(l(\theta)\)為似然函式。於是我們應該用似然程度最大的那個點,即滿足條件:
\[l(x_1,...,x_n;\theta_1^*,...,\theta_k^*)=\max_l(x_1,...,x_n;\theta_1,...,\theta_k)
\]其中,我們稱\((\theta_1^*,...,\theta_k^*)\)為\((\theta_1,...,\theta_k)\)的極大似然估計。
設\(x_1,...,x_n\)是從正態總體\(n(\mu,\sigma^2)\)中抽出的樣本,則似然函式為:再進行抽樣之前,我們已經對\(\theta\)有了一定的認識,我們稱為「先驗知識」,而且我們進一步要求,這種先驗知識必須用某種概率分布來標示出來,則可以稱這個概率分布為「先驗分布」或「驗前分布」。\[\begin
l=&\prod_[(\sqrt)^exp\left(-\frac1(x_i-\mu)^2\right)]\\
\ln=&\sum_\ln}+\sum_(-\frac1(x_i-\mu)^2)\\
=&-\frac n2\ln-\frac n2\ln-\frac1\sum_(x_i-\mu)^2\\
\end
\]於是我們可以分別求出偏導,並令其為0:
\[\begin
\frac}=\frac1\sum_(x_i-\mu)=0\\
\frac}=-\frac n+\frac1\sum_(x_i-\mu)^2=0
\end
\]於是我們分別可以求得:
\[\mu^*=\frac^nx_i}=\overline,(\sigma^2)^*=\frac^n(x_i-\overline)^2}=m_2
\]
關於這個先驗分布如何取得,我們暫不討論。我們再此只介紹已定下了先驗密度\(h(\theta)\)之後,如何求得引數的估計。設有總體概率密度\(f(x,\theta)\),從中抽取樣本\(x_1,...,x_n\),則這組樣本的密度可視為在給定引數值時的樣本概率,即聯合密度可寫為:
\[h(\theta)f(x_1,\theta)...f(x_n,\theta)
\]則可以算出樣本的邊緣分布為:
\[p(x_1,...,x_n)=\intd\theta
\]於是我們可以得出在給定\((x_1,...,x_n)\)條件下,\(\theta\)的條件密度為:
\[h(\theta|x_1,...,x_n)=\fracd\theta}
\]根據貝葉斯學派的觀點,這個條件密度代表了我們取得了樣本後對引數的知識,它綜合了引數的先驗資訊,以及有樣本帶來的資訊,於是把該式子稱為引數的後驗密度。
設\(x_1,...,x_n\)是從正態總體\(n(\mu,\sigma^2)\)中抽出的樣本,\(\mu\)的先驗分布為正態分佈\(n(\theta,\tau^2)\)則\(\mu\)的貝葉斯估計為:上面這個公式推了爺兩個多小時也是醉了,由上式可以看出,當\(\tau^2\)越大的時候,表示先驗資訊越不肯定,即\(\mu\)在\(\theta\)附近的波動越大,反之則僅根據先驗資訊,就有很大的把握說其在\(\theta\)附近不遠處。\[h(\mu)=(\sqrt\tau)^exp[-\frac1(\mu-\theta)^2]\\
f(x,\mu)=(\sqrt\sigma)^exp[-\frac1(x-\mu)^2]
\]於是聯合密度函式為:
\[h(\mu)f(x_1,\mu)...f(x_n,\mu)=(\sqrt)^\tau^\sigma^exp[-\frac1(\mu-\theta)^2-\frac1\sum_^n(x-\mu)^2]
\]邊緣分布為:
\[(\sqrt)^\tau^\sigma^\int exp[-\frac1(\mu-\theta)^2-\frac1\sum_^n(x-\mu)^2]d\mu
\]於是,\(\mu\)的後驗密度為:
\[h(\mu|x_1,...,x_n)=\frac(\mu-\theta)^2-\frac1\sum_^n(x-\mu)^2]}(\mu-\theta)^2-\frac1\sum_^n(x-\mu)^2]d\mu}
\]而指數函式內可化簡為:
\[\begin
&-\frac1(\mu-\theta)^2-\frac1\sum_^n(x-\mu)^2\\
=&-\frac1\mu^2+\frac1\mu\theta-\frac1\theta^2-\frac1\sum_^n_i^2+\frac1\sum_^n_i\mu-\frac1\sum_^n\mu^2\\
\end
\]由於\(\sum_^nx_i=n\overline\),\(\sum_^n\mu^2=n\mu^2\)
\[\begin
=&-(\frac1+\frac n)\mu^2+(\frac\theta+\frac^n_i})\mu+\left(-\frac1\theta^2-\frac1\sum_^n_i^2\right)\\
(*)=&-\frac12\left[(\frac1+\frac n)\mu^2-2(\frac\theta+\frac})\mu+\left(\frac+\frac^n_i^2}\right)\right]
\end
\]考慮:
\[\begin
\frac1+\frac n=a\\
\frac\theta+\frac}=b\\
\frac+\frac^n_i^2}=c
\end
\]則(*)可化為:
\[-\frac12\left[a\mu^2-2b\mu+c\right]=\left[-\frac-\frac12(c-b^2/a)\right]
\]於是我們可以得出:
\[\begin
&\int exp[-\frac1(\mu-\theta)^2-\frac1\sum_^n(x-\mu)^2]d\mu\\
=&\int_^\infty exp\left[-\frac-\frac12(c-b^2/a)\right]d\mu\\
=&exp\left(-\frac12(c-b^2/a)\right)(2\pi/a)^2
\end
\]則將其帶入貝葉斯後驗密度公式我們可以得到:
\[\begin
&h(\mu|x_1,...,x_n)\\
=&\frac(\mu-\theta)^2-\frac1\sum_^n(x-\mu)^2]}(\mu-\theta)^2-\frac1\sum_^n(x-\mu)^2]d\mu}\\
=&(2\pi/a)^2 exp\left[-\frac\right]
\end
\]由正態分佈的定義,我們可以得出對於\((\mu|x_1,...,x_n)\):
\[(\mu|x_1,...,x_n)\sim n(b/a,1/a)\to n(\frac\sigma^+\theta\tau^}+\tau^},\frac1+\tau^})
\]則後驗均值即為貝葉斯估計:
\[\hat=\frac}+\tau^}\bar+\frac}+\tau^}\theta
\]
極大似然估計與貝葉斯估計
貝葉斯估計與極大似然估計在思想上有很大的不同,代表著統計學中貝葉斯學派和頻率學派對統計的不同認識。極大似然估計是頻率學派觀點,它的觀點可以這樣理解 待估計引數 theta 是客觀存在的,只是未知而已,已知觀測樣本 d dd,求得 hat 使得在 theta hat 時,產生觀測樣本資料 d dd 的...
極大似然估計和貝葉斯估計
假設 存在乙個先驗分布g 那麼 的後驗分布為 f x g f x g d 最大後驗概率估計 即為 後驗概率分布的眾數 m ap x ar gmax f x g 可以看做正則化的最大似然估計,當g是常數時兩者等價 極大似然估計和貝葉斯估計分別代表了頻率派和貝葉斯派的觀點。頻率派認為,引數是客觀存在的,...
極大似然估計和貝葉斯估計
序言 然後根據資料來求出這個 而貝葉斯估計的難點在於p p 需要人為設定,之後再考慮結合map map maximum a posterior 方法來求乙個具體的 所以極大似然估計與貝葉斯估計最大的不同就在於是否考慮了先驗,而兩者適用範圍也變成了 極大似然估計適用於資料大量,估計的引數能夠較好的反映...