極大似然簡介

極大似然法的思想始於高斯的誤差理論，在各種估計方法中較為優良，它屬於頻率學派的點估計法的一種。

頻率學派的引數估計方法

頻率學派的引數估計方法，不管是矩估計，極大似然法，區間估計或者其他方法，在抽取樣本之前對引數θ

\theta

θ 沒有任何了解。

這裡和貝葉斯方法區別一下：bayesian的基本觀點是在抽取樣本之前，就對引數 θ

\theta

θ 有了一定的知識，叫做先驗知識。這是bayesian和frequentist的主要區別。貝葉斯統計學對先驗資訊收集挖掘和加工，使其數量化，形成先驗分布，根據貝葉斯公式得到後驗分布。得出了後驗分布以後，對引數 θ

\theta

θ 的任何統計推斷，都只能基於這個後驗分布。

點估計是什麼

設從總體中抽出的樣本 x1,

…,xn

x_1,\dots,x_n

x1,…,

xn，假設總體的引數為 θ

\theta

θ , 根據這些樣本去對引數 θ

\theta

θ作出估計，可以構造適當的統計量 θ^=

θ^(x

1,…,

)\hat \theta = \hat \theta(x_1,\dots,x_n)

θ^=θ^(

x1,

…,xn

)，每當有了樣本，就代入函式 θ^(

x1,…

,xn)

\hat \theta(x_1,\dots,x_n)

θ^(x1

,…,x

n) 算出乙個值作為 θ

\theta

θ 的估計值。

由於未知引數 θ

\theta

θ 是數軸上的乙個點，用 θ

^\hat \theta

θ^去估計 θ

\theta

θ 相當於用乙個點去估計另乙個點，這樣的估計就叫點估計，區別於區間估計。

極大似然是什麼

設總體分布為 f(x

;θ)，

x1,…

nf(x;\theta) ， x_1,\dots,x_n

f(x;θ)

，x1

,…,x

n是從總體分布中抽出的樣本，那麼樣本(x1

,…,x

(x_1,\dots,x_n)

(x1,…

,xn

)的聯合分布為： l(x

1,x2

,…,x

n;θ)

=f(x

1;θ)

f(x2

;θ)⋯

f(xn

;θ

)l(x_1,x_2,\dots,x_n;\theta)=f(x_1;\theta) f(x_2;\theta) \cdots f(x_n;\theta)

l(x1,

x2,

…,xn

;θ)

=f(x

1;θ

)f(x

2;θ

)⋯f(

xn;

θ)當固定 θ

\theta

θ 時，看作是 x1,

…,xn

x_1,\dots,x_n

x1,…,

xn 的函式時，l是乙個概率密度函式。

當固定 x1,

…,xn

x_1,\dots,x_n

x1,…,

xn 時，把 l 看作是 θ

\theta

θ 的函式，由於 θ

\theta

θ 有一定的值，但是未知，並非隨機變數（頻率學派觀點），不能叫做概率，而叫做似然（likelihood）。

使得likelihood最大的那個點記為：

θ ∗=

argm

axl(

x1,⋯

,xn;

θ)

\theta^*=argmaxl(x_1,\cdots,x_n;\theta)

θ∗=arg

maxl

(x1

,⋯,x

n;θ

)並將其並作為 θ

\theta

θ 的估計值，在已有的樣本 x1,

…,xn

x_1,\dots,x_n

x1,…,

xn 條件下， θ

∗\theta^*

θ∗就叫做 θ

\theta

θ 的極大似然估計。由於log

l=∑i

=1nl

ogf(

xi;θ

)log l=\sum_log f(x_i;\theta)

logl=i

=1∑

nlog

f(xi

;θ)

且為了使得l最大，只須使得log l 最大，故在f對 θ

\theta

θ 存在連續偏導數時，可以建立方程：

∂ lo

gl∂θ

\frac=0

∂θ∂log

l=0

如果有多個引數就聯立方程組：

∂ lo

gl∂θ

i=0,

i=1,

⋯,

k\frac}=0,i=1,\cdots,k

∂θi∂l

ogl

=0,i

=1,⋯

,k如果這個方程組有唯一的解，且有能驗證它是乙個極大值點，那麼它必定是使l達到最大的點，即極大似然估計。

複雜的場合，方程組不止乙個解，求出這些解耗費計算，並且不易判定哪個使l最大。

有時 f 並不一定對 θ

\theta

θ 可導，甚至 f 本身也不連續，那麼方程組無用，要回到原始定義

θ ∗=

argm

axl(

x1,⋯

,xn;

θ)

\theta^*=argmaxl(x_1,\cdots,x_n;\theta)

θ∗=arg

maxl

(x1

,⋯,x

n;θ

)侷限

極大似然法的要求分布有引數形式。

極大似然法在資料比較少的時候容易overfit。

極大似然估計

在機器學習的領域內，極大似然估計是最常見的引數估計的方法之一，在這裡整理一下它的基本原理。極大似然估計從根本上遵循眼見為實，這樣的哲學思想。也就是說，它嚴格地僅僅利用了已知的實驗結果，來估計概率模型中的引數。極大似然估計的計算過程非常簡單 1.寫出似然函式 2.求出使得似然函式取最大值的引數的值，...

極大似然估計

一理論基礎 1 引例某位同學與一位獵人一起外出打獵，乙隻野兔從前方竄過。只聽一聲槍響，野兔應聲到下，如果要你推測，這一發命中的子彈是誰打的？你就會想，只發一槍便打中，由於獵人命中的概率一般大於這位同學命中的概率，看來這一槍是獵人射中的。這個例子所作的推斷就體現了極大似然法的基本思想。2 簡介極...

極大似然估計

現實情況中我們可能會遇到這樣的一些例子，需要得到一所高校有車學生的分布情況假定符合引數為p的伯努利分布某地區成年男性的身高分布情況假定符合引數為u1，1的正態分佈南極洲成年帝企鵝的體重分布假定符合引數為u2，2的正態分佈等等。由於時間和經費的限制，不可能進行全面統計，我們只能通過一定的觀...

極大似然簡介

極大似然估計

極大似然估計

極大似然估計

相關推薦