極大似然法的思想始於高斯的誤差理論,在各種估計方法中較為優良,它屬於頻率學派的點估計法的一種。
頻率學派的引數估計方法
頻率學派的引數估計方法,不管是矩估計,極大似然法,區間估計或者其他方法,在抽取樣本之前對引數θ
\theta
θ 沒有任何了解。
這裡和貝葉斯方法區別一下:bayesian的基本觀點是在抽取樣本之前,就對引數 θ
\theta
θ 有了一定的知識,叫做先驗知識。這是bayesian和frequentist的主要區別。貝葉斯統計學對先驗資訊收集挖掘和加工,使其數量化,形成先驗分布,根據貝葉斯公式得到後驗分布。得出了後驗分布以後,對引數 θ
\theta
θ 的任何統計推斷,都只能基於這個後驗分布。
點估計是什麼
設從總體中抽出的樣本 x1,
…,xn
x_1,\dots,x_n
x1,…,
xn, 假設總體的引數為 θ
\theta
θ , 根據這些樣本去對引數 θ
\theta
θ作出估計,可以構造適當的統計量 θ^=
θ^(x
1,…,
xn
)\hat \theta = \hat \theta(x_1,\dots,x_n)
θ^=θ^(
x1,
…,xn
),每當有了樣本,就代入函式 θ^(
x1,…
,xn)
\hat \theta(x_1,\dots,x_n)
θ^(x1
,…,x
n) 算出乙個值作為 θ
\theta
θ 的估計值。
由於未知引數 θ
\theta
θ 是數軸上的乙個點,用 θ
^\hat \theta
θ^去估計 θ
\theta
θ 相當於用乙個點去估計另乙個點,這樣的估計就叫點估計,區別於區間估計。
極大似然是什麼
設總體分布為 f(x
;θ),
x1,…
,x
nf(x;\theta) , x_1,\dots,x_n
f(x;θ)
,x1
,…,x
n是從總體分布中抽出的樣本, 那麼樣本(x1
,…,x
n)
(x_1,\dots,x_n)
(x1,…
,xn
)的聯合分布為: l(x
1,x2
,…,x
n;θ)
=f(x
1;θ)
f(x2
;θ)⋯
f(xn
;θ
)l(x_1,x_2,\dots,x_n;\theta)=f(x_1;\theta) f(x_2;\theta) \cdots f(x_n;\theta)
l(x1,
x2,
…,xn
;θ)
=f(x
1;θ
)f(x
2;θ
)⋯f(
xn;
θ)當固定 θ
\theta
θ 時,看作是 x1,
…,xn
x_1,\dots,x_n
x1,…,
xn 的函式時,l是乙個概率密度函式。
當固定 x1,
…,xn
x_1,\dots,x_n
x1,…,
xn 時, 把 l 看作是 θ
\theta
θ 的函式,由於 θ
\theta
θ 有一定的值,但是未知,並非隨機變數(頻率學派觀點),不能叫做概率,而叫做似然(likelihood)。
使得likelihood最大的那個點記為:
θ ∗=
argm
axl(
x1,⋯
,xn;
θ)
\theta^*=argmaxl(x_1,\cdots,x_n;\theta)
θ∗=arg
maxl
(x1
,⋯,x
n;θ
)並將其並作為 θ
\theta
θ 的估計值,在已有的樣本 x1,
…,xn
x_1,\dots,x_n
x1,…,
xn 條件下, θ
∗\theta^*
θ∗就叫做 θ
\theta
θ 的極大似然估計。由於log
l=∑i
=1nl
ogf(
xi;θ
)log l=\sum_log f(x_i;\theta)
logl=i
=1∑
nlog
f(xi
;θ)
且為了使得l最大,只須使得log l 最大,故在f對 θ
\theta
θ 存在連續偏導數時,可以建立方程:
∂ lo
gl∂θ
=0
\frac=0
∂θ∂log
l=0
如果有多個引數就聯立方程組:
∂ lo
gl∂θ
i=0,
i=1,
⋯,
k\frac}=0,i=1,\cdots,k
∂θi∂l
ogl
=0,i
=1,⋯
,k如果這個方程組有唯一的解,且有能驗證它是乙個極大值點,那麼它必定是使l達到最大的點,即極大似然估計。
複雜的場合,方程組不止乙個解,求出這些解耗費計算,並且不易判定哪個使l最大。
有時 f 並不一定對 θ
\theta
θ 可導,甚至 f 本身也不連續,那麼方程組無用,要回到原始定義
θ ∗=
argm
axl(
x1,⋯
,xn;
θ)
\theta^*=argmaxl(x_1,\cdots,x_n;\theta)
θ∗=arg
maxl
(x1
,⋯,x
n;θ
)侷限
極大似然法的要求分布有引數形式。
極大似然法在資料比較少的時候容易overfit。
極大似然估計
在機器學習的領域內,極大似然估計是最常見的引數估計的方法之一,在這裡整理一下它的基本原理。極大似然估計從根本上遵循 眼見為實,這樣的哲學思想。也就是說,它嚴格地僅僅利用了已知的實驗結果,來估計概率模型中的引數。極大似然估計的計算過程非常簡單 1.寫出似然函式 2.求出使得似然函式取最大值的引數的值,...
極大似然估計
一 理論基礎 1 引例 某位同學與一位獵人一起外出打獵,乙隻野兔從前方竄過。只聽一聲槍響,野兔應聲到下,如果要你推測,這一發命中的子彈是誰打的?你就會想,只發一槍便打中,由於獵人命中的概率一般大於這位同學命中的概率,看來這一槍是獵人射中的。這個例子所作的推斷就體現了極大似然法的基本思想。2 簡介 極...
極大似然估計
現實情況中我們可能會遇到這樣的一些例子,需要得到一所高校有車學生的分布情況 假定符合引數為p的伯努利分布 某地區成年男性的身高分布情況 假定符合引數為u1,1的正態分佈 南極洲成年帝企鵝的體重分布 假定符合引數為u2,2的正態分佈 等等。由於時間和經費的限制,不可能進行全面統計,我們只能通過一定的觀...