機器學習 高斯分布為什麼普遍和常用?

2021-08-14 02:36:45 字數 3681 閱讀 6387

-###似然函式到高斯分布

為了得到精確值,我們需要進行多次測量,測量值大部分對稱分布在真實值兩側附近。設測量期望為

θ ,誤差為ei

=xi−

θ ,期望為0,誤差分布滿足什麼規律呢?假設該分布的最大似然估計就是平均值、期望,根據實驗儀器知道乙個大概的方差

σ ,那麼θ=

argm

axlθ

[f(e

,θ)]

,求導得到∑f

′(xi

−θ)f

(xi−

θ)=∑

f′(e

)f(e

)=0 ,同時∑x

i=θ ,滿足這一條件的式子為f′

(ei)

f(ei

)=ce

,求解得到f(

x)=a

ecx2

=aec

(x−θ

)2,因此測量誤差滿足正太分布。這說明,高斯分布是似然函式最大時的最佳分布,不過這個推導令人疑惑的地方在於似然函式是ln

,自然會推導出科學常數,如果是用其他函式形式來表示似然函式,是不是就推導出別的分布而不是正態分佈呢?我認為是可能的,不過似然函式用ln

是有其道理的,具體我暫時不明白。

上述推論並不能推出為什麼高斯分布在現實世界如此普通如此重要。要證明高斯分布的普遍性,需要借助最大熵原理。

熵:定義資訊量函式i(x),滿足: * i

(x)=

inf,p(

x)=0

* i(

x)=0

,p(x

)=1

* p(x

)>p(

y),i

(x)y)

* p(

x)>=0,

i(x)

>=0

* x,y~iid,p(

x,y)

=p(x

)p(y

),i(

x,y)

=i(x

)+i(

y)

滿足上面的最簡單的概率分布為i(

x)=−

clnp(

x),對其求期望有f(

x)=∑

cp(x

i)lnp

(xi)

,不要c即為熵h(

x)=∑

p(xi

)lnp(

xi) ,表示系統資訊量的多少。

系統總是往熵最大的方向運動。均勻分布下有最大熵。證明:

1、熵函式是凸函式δh

(x)=

lnx+1

,h″(

x)=1

/x,x

>

0 。

2、jensen不等式:e[

f(x)

]≥f(

ex) 。當∑p

(xi)

=1時,有−∑

p(xi

)lnp(

xi)=

∑p(x

i)ln1

/p(x

i)≤ln

∑[p(

xi)/

p(xi

)]=ln

k ,當p(x)全部相等時等號成立。

這說明未知系統處於均勻分布下是最穩定的狀態。

如果我們已知系統的均值

μ 和不為0的方差

σ ,那麼熵最大的分布是什麼呢?這時候肯定不是均勻分布,因為有不為0的方差,那肯定是有起伏的而不是平坦的。假設這個系統是乙個連續概率分布f(

x),並且均值為

μ ,不為0的方差

σ ,其最大熵模型為: s=

−∫∞−

∞f(x

)lnf(

x)dx

(1) s.

t.∫∞

−∞f(

x)dx

=1(2) ∫∞

−∞xf

(x)d

x=μ(3) ∫

∞−∞(

x−μ)

2f(x

)dx=

σ2(4)

我們的目標是求解上述模型在最值下f(

x)的形式,並且我們可以預先確定這個模型有最大值。針對這個最優化模型,我們引入拉格朗日乘子法,有三個乘子α,

β,γ ,得到最優化模型為:s(

f(x)

,x)=

−∫∞−

∞[f(

x)lnf

(x)+

αf(x

)+βx

f(x)

+γ(x

−μ)2

f(x)

]dx+

c c為與μ,σ

相關的常數,與最優化求解過程無關,故而可以無視。s是乙個關於f(

x),x

的泛函,求解泛函極值的工具自然是尤拉拉格朗日el方程,其通用形式為:s=

∫x2x

1l(f

,f′,

x)dx

argm

axs(

f(x)

,f′(

x),x

)→∂l

∂f−d

dx∂l

∂f′=

0 不過這裡s沒有f′

,所以最後求解泛函極值的模型變為∂l

∂f=ln

f(x)

+1−α

−βx−

γ(x−

μ)2=

0f(x

)=eα

−1eγ

[x−(

μ−β2

γ)]2

設y=x−(μ

−β2γ

),dx

=dy ,由(2)得到∫f

(y)d

y=∫e

α−1e

γy2d

y=1

其中拉格朗日乘子

γ<

0 使得這個積分有值,由公式∫e

−x2d

x=π‾

‾√得到eα−

1π−γ

‾‾‾√

=1. 由(3)得到,∫(

y+μ−

β2γ)

f(y)

dy=μ

→∫yf(y)

dy=β

2γ,n

otic

e,∫y

f(y)

dy=c

′∫∞−

∞yeγ

y2=0

≠μ後面乙個式子是乙個對稱的奇函式,故而積分為0,這裡容易看走眼。顯然β=

0,y=

x−μ,

f(x)

=−γπ

‾‾‾√

∫eγ(

x−μ)

2=−γ

π‾‾‾

√∫eγ

y2由(4)得到,∫y

2f(y

)dy=

σ2y2

γeγy

2|∞−

∞−12

γ−γπ

‾‾‾‾

√∫eγ

y2dy

=0−1

2γ=σ

2γ=−

12σ2

綜上得到已知μ,

σ 的情況下,最大熵的概率分布為f(

x)=1

2π‾‾

‾√σe

−(x−

μ)22

σ2即此時的正態分佈最穩定,所以正態分佈是一種常見的分布。

機器學習 單高斯分布引數估計

對於單維高斯分布而言,其概率密度函式可以表示成 p x frac sigma e 其中 u 表示均值,sigma 2 表示方差。對於多維高斯分布而言,其概率密度函式可以表示成 p x frac lvert sigma rvert e x u t sigma x u 其中p表示維度,首先介紹如何根據極...

機器為什麼可以學習 4 錯誤和雜訊

1 課程主要內容 上節課中學習了vc維的相關只是,在hypothesis set的vc維有限,且輸入資料n夠大,並可以找到乙個足夠小的ein,那麼學習就是可能的。但是在實際的情況中,資料 不都是理想的,必然存在著錯誤和雜訊,本次課程討論在錯誤和雜訊存在的情況下,機器為什麼還可以學習?在雜訊和錯誤存在...

為什麼說深度學習和機器學習截然不同?

本文 2016 是人工智慧爆發的一年,各種層出不窮的新技術 新概念讓人眼花繚亂。很多人都分不清人工智慧 artificial intelligence,簡稱 ai 機器學習 machine learning,簡稱 ml 以及深度學習 deep learning,簡稱 dl 概念之間的不同。本文重點解...