-###似然函式到高斯分布
為了得到精確值,我們需要進行多次測量,測量值大部分對稱分布在真實值兩側附近。設測量期望為
θ ,誤差為ei
=xi−
θ ,期望為0,誤差分布滿足什麼規律呢?假設該分布的最大似然估計就是平均值、期望,根據實驗儀器知道乙個大概的方差
σ ,那麼θ=
argm
axlθ
[f(e
,θ)]
,求導得到∑f
′(xi
−θ)f
(xi−
θ)=∑
f′(e
)f(e
)=0 ,同時∑x
i=θ ,滿足這一條件的式子為f′
(ei)
f(ei
)=ce
,求解得到f(
x)=a
ecx2
=aec
(x−θ
)2,因此測量誤差滿足正太分布。這說明,高斯分布是似然函式最大時的最佳分布,不過這個推導令人疑惑的地方在於似然函式是ln
,自然會推導出科學常數,如果是用其他函式形式來表示似然函式,是不是就推導出別的分布而不是正態分佈呢?我認為是可能的,不過似然函式用ln
是有其道理的,具體我暫時不明白。
上述推論並不能推出為什麼高斯分布在現實世界如此普通如此重要。要證明高斯分布的普遍性,需要借助最大熵原理。
熵:定義資訊量函式i(x),滿足: * i
(x)=
inf,p(
x)=0
* i(
x)=0
,p(x
)=1
* p(x
)>p(
y),i
(x)y)
* p(
x)>=0,
i(x)
>=0
* x,y~iid,p(
x,y)
=p(x
)p(y
),i(
x,y)
=i(x
)+i(
y)
滿足上面的最簡單的概率分布為i(
x)=−
clnp(
x),對其求期望有f(
x)=∑
cp(x
i)lnp
(xi)
,不要c即為熵h(
x)=∑
p(xi
)lnp(
xi) ,表示系統資訊量的多少。
系統總是往熵最大的方向運動。均勻分布下有最大熵。證明:
1、熵函式是凸函式δh
(x)=
lnx+1
,h″(
x)=1
/x,x
>
0 。
2、jensen不等式:e[
f(x)
]≥f(
ex) 。當∑p
(xi)
=1時,有−∑
p(xi
)lnp(
xi)=
∑p(x
i)ln1
/p(x
i)≤ln
∑[p(
xi)/
p(xi
)]=ln
k ,當p(x)全部相等時等號成立。
這說明未知系統處於均勻分布下是最穩定的狀態。
如果我們已知系統的均值
μ 和不為0的方差
σ ,那麼熵最大的分布是什麼呢?這時候肯定不是均勻分布,因為有不為0的方差,那肯定是有起伏的而不是平坦的。假設這個系統是乙個連續概率分布f(
x),並且均值為
μ ,不為0的方差
σ ,其最大熵模型為: s=
−∫∞−
∞f(x
)lnf(
x)dx
(1) s.
t.∫∞
−∞f(
x)dx
=1(2) ∫∞
−∞xf
(x)d
x=μ(3) ∫
∞−∞(
x−μ)
2f(x
)dx=
σ2(4)
我們的目標是求解上述模型在最值下f(
x)的形式,並且我們可以預先確定這個模型有最大值。針對這個最優化模型,我們引入拉格朗日乘子法,有三個乘子α,
β,γ ,得到最優化模型為:s(
f(x)
,x)=
−∫∞−
∞[f(
x)lnf
(x)+
αf(x
)+βx
f(x)
+γ(x
−μ)2
f(x)
]dx+
c c為與μ,σ
相關的常數,與最優化求解過程無關,故而可以無視。s是乙個關於f(
x),x
的泛函,求解泛函極值的工具自然是尤拉拉格朗日el方程,其通用形式為:s=
∫x2x
1l(f
,f′,
x)dx
argm
axs(
f(x)
,f′(
x),x
)→∂l
∂f−d
dx∂l
∂f′=
0 不過這裡s沒有f′
,所以最後求解泛函極值的模型變為∂l
∂f=ln
f(x)
+1−α
−βx−
γ(x−
μ)2=
0f(x
)=eα
−1eγ
[x−(
μ−β2
γ)]2
設y=x−(μ
−β2γ
),dx
=dy ,由(2)得到∫f
(y)d
y=∫e
α−1e
γy2d
y=1
其中拉格朗日乘子
γ<
0 使得這個積分有值,由公式∫e
−x2d
x=π‾
‾√得到eα−
1π−γ
‾‾‾√
=1. 由(3)得到,∫(
y+μ−
β2γ)
f(y)
dy=μ
→∫yf(y)
dy=β
2γ,n
otic
e,∫y
f(y)
dy=c
′∫∞−
∞yeγ
y2=0
≠μ後面乙個式子是乙個對稱的奇函式,故而積分為0,這裡容易看走眼。顯然β=
0,y=
x−μ,
f(x)
=−γπ
‾‾‾√
∫eγ(
x−μ)
2=−γ
π‾‾‾
√∫eγ
y2由(4)得到,∫y
2f(y
)dy=
σ2y2
γeγy
2|∞−
∞−12
γ−γπ
‾‾‾‾
√∫eγ
y2dy
=0−1
2γ=σ
2γ=−
12σ2
綜上得到已知μ,
σ 的情況下,最大熵的概率分布為f(
x)=1
2π‾‾
‾√σe
−(x−
μ)22
σ2即此時的正態分佈最穩定,所以正態分佈是一種常見的分布。
機器學習 單高斯分布引數估計
對於單維高斯分布而言,其概率密度函式可以表示成 p x frac sigma e 其中 u 表示均值,sigma 2 表示方差。對於多維高斯分布而言,其概率密度函式可以表示成 p x frac lvert sigma rvert e x u t sigma x u 其中p表示維度,首先介紹如何根據極...
機器為什麼可以學習 4 錯誤和雜訊
1 課程主要內容 上節課中學習了vc維的相關只是,在hypothesis set的vc維有限,且輸入資料n夠大,並可以找到乙個足夠小的ein,那麼學習就是可能的。但是在實際的情況中,資料 不都是理想的,必然存在著錯誤和雜訊,本次課程討論在錯誤和雜訊存在的情況下,機器為什麼還可以學習?在雜訊和錯誤存在...
為什麼說深度學習和機器學習截然不同?
本文 2016 是人工智慧爆發的一年,各種層出不窮的新技術 新概念讓人眼花繚亂。很多人都分不清人工智慧 artificial intelligence,簡稱 ai 機器學習 machine learning,簡稱 ml 以及深度學習 deep learning,簡稱 dl 概念之間的不同。本文重點解...