極大似然簡介

2021-09-18 06:20:44 字數 3461 閱讀 8190

極大似然法的思想始於高斯的誤差理論,在各種估計方法中較為優良,它屬於頻率學派的點估計法的一種

頻率學派的引數估計方法

頻率學派的引數估計方法,不管是矩估計,極大似然法,區間估計或者其他方法,在抽取樣本之前對引數θ

\theta

θ 沒有任何了解。

這裡和貝葉斯方法區別一下:bayesian的基本觀點是在抽取樣本之前,就對引數 θ

\theta

θ 有了一定的知識,叫做先驗知識。這是bayesian和frequentist的主要區別。貝葉斯統計學對先驗資訊收集挖掘和加工,使其數量化,形成先驗分布,根據貝葉斯公式得到後驗分布。得出了後驗分布以後,對引數 θ

\theta

θ 的任何統計推斷,都只能基於這個後驗分布

點估計是什麼

設從總體中抽出的樣本 x1,

…,xn

x_1,\dots,x_n

x1​,…,

xn​, 假設總體的引數為 θ

\theta

θ , 根據這些樣本去對引數 θ

\theta

θ作出估計,可以構造適當的統計量 θ^=

θ^(x

1,…,

xn

)\hat \theta = \hat \theta(x_1,\dots,x_n)

θ^=θ^(

x1​,

…,xn

​),每當有了樣本,就代入函式 θ^(

x1,…

,xn)

\hat \theta(x_1,\dots,x_n)

θ^(x1​

,…,x

n​) 算出乙個值作為 θ

\theta

θ 的估計值。

由於未知引數 θ

\theta

θ 是數軸上的乙個點,用 θ

^\hat \theta

θ^去估計 θ

\theta

θ 相當於用乙個點去估計另乙個點,這樣的估計就叫點估計,區別於區間估計。

極大似然是什麼

設總體分布為 f(x

;θ),

x1,…

,x

nf(x;\theta) , x_1,\dots,x_n

f(x;θ)

,x1​

,…,x

n​是從總體分布中抽出的樣本, 那麼樣本(x1

,…,x

n)

(x_1,\dots,x_n)

(x1​,…

,xn​

)的聯合分布為: l(x

1,x2

,…,x

n;θ)

=f(x

1;θ)

f(x2

;θ)⋯

f(xn

)l(x_1,x_2,\dots,x_n;\theta)=f(x_1;\theta) f(x_2;\theta) \cdots f(x_n;\theta)

l(x1​,

x2​,

…,xn

​;θ)

=f(x

1​;θ

)f(x

2​;θ

)⋯f(

xn​;

θ)當固定 θ

\theta

θ 時,看作是 x1,

…,xn

x_1,\dots,x_n

x1​,…,

xn​ 的函式時,l是乙個概率密度函式。

當固定 x1,

…,xn

x_1,\dots,x_n

x1​,…,

xn​ 時, 把 l 看作是 θ

\theta

θ 的函式,由於 θ

\theta

θ 有一定的值,但是未知,並非隨機變數(頻率學派觀點),不能叫做概率,而叫做似然(likelihood)。

使得likelihood最大的那個點記為:

θ ∗=

argm

axl(

x1,⋯

,xn;

θ)

\theta^*=argmaxl(x_1,\cdots,x_n;\theta)

θ∗=arg

maxl

(x1​

,⋯,x

n​;θ

)並將其並作為 θ

\theta

θ 的估計值,在已有的樣本 x1,

…,xn

x_1,\dots,x_n

x1​,…,

xn​ 條件下, θ

∗\theta^*

θ∗就叫做 θ

\theta

θ 的極大似然估計。由於log

l=∑i

=1nl

ogf(

xi;θ

)log l=\sum_log f(x_i;\theta)

logl=i

=1∑​

nlog

f(xi

​;θ)

且為了使得l最大,只須使得log l 最大,故在f對 θ

\theta

θ 存在連續偏導數時,可以建立方程:

∂ lo

gl∂θ

=0

\frac=0

∂θ∂log

l​=0

如果有多個引數就聯立方程組:

∂ lo

gl∂θ

i=0,

i=1,

⋯,

k\frac}=0,i=1,\cdots,k

∂θi​∂l

ogl​

=0,i

=1,⋯

,k如果這個方程組有唯一的解,且有能驗證它是乙個極大值點,那麼它必定是使l達到最大的點,即極大似然估計。

複雜的場合,方程組不止乙個解,求出這些解耗費計算,並且不易判定哪個使l最大。

有時 f 並不一定對 θ

\theta

θ 可導,甚至 f 本身也不連續,那麼方程組無用,要回到原始定義

θ ∗=

argm

axl(

x1,⋯

,xn;

θ)

\theta^*=argmaxl(x_1,\cdots,x_n;\theta)

θ∗=arg

maxl

(x1​

,⋯,x

n​;θ

)侷限

極大似然法的要求分布有引數形式

極大似然法在資料比較少的時候容易overfit

極大似然估計

在機器學習的領域內,極大似然估計是最常見的引數估計的方法之一,在這裡整理一下它的基本原理。極大似然估計從根本上遵循 眼見為實,這樣的哲學思想。也就是說,它嚴格地僅僅利用了已知的實驗結果,來估計概率模型中的引數。極大似然估計的計算過程非常簡單 1.寫出似然函式 2.求出使得似然函式取最大值的引數的值,...

極大似然估計

一 理論基礎 1 引例 某位同學與一位獵人一起外出打獵,乙隻野兔從前方竄過。只聽一聲槍響,野兔應聲到下,如果要你推測,這一發命中的子彈是誰打的?你就會想,只發一槍便打中,由於獵人命中的概率一般大於這位同學命中的概率,看來這一槍是獵人射中的。這個例子所作的推斷就體現了極大似然法的基本思想。2 簡介 極...

極大似然估計

現實情況中我們可能會遇到這樣的一些例子,需要得到一所高校有車學生的分布情況 假定符合引數為p的伯努利分布 某地區成年男性的身高分布情況 假定符合引數為u1,1的正態分佈 南極洲成年帝企鵝的體重分布 假定符合引數為u2,2的正態分佈 等等。由於時間和經費的限制,不可能進行全面統計,我們只能通過一定的觀...