原創 2023年03月26日 10:55:45
對於普通的函式f(x),我們可以認為
f 是乙個關於
x 的乙個實數運算元,其作用是將實數
x 對映到實數f(
x)。那麼模擬這種模式,假設存在函式運算元
f ,它是關於f(
x)的函式運算元,可以將f(
x)對映成實數f(
f(x)
) 。對於f(
x)我們是通過改變x來求出f(
x)的極值,而在變分中這個
x 會被替換成乙個函式y(
x),我們通過改變
x 來改變y(
x),最後使得f(
y(x)
) 求得極值。
推了這麼多公式,讓我們先喘口氣,來看看這些公式究竟在做什麼?logp(
x)=logp(
x,z)
−logp(
z|x)
=logp(
x,z)
q(z)
−logp(
z|x)
q(z)
=logp(
x,z)
−logq(
z)−logp(
z|x)
q(z)
=logp(
x,z)
−logq(
z)+logq(
z)p(
z|x)
∫q(z
)logp(
x)dz
logp(x
)現在等
式兩邊同
時對q(
z)做期
望,即,
=∫q(
z)logp(x
,z)d
z−∫q
(z)logq(
z)dz
+∫q(
z)logq(z
)p(z
|x)d
z由於q
(z)與
p(x)
無關,所
以∫q(
z)logp(x
)dz=
logp(x
)原式最
終變為:
=∫q(
z)logp(x
,z)d
z−∫q
(z)logq(
z)dz
l
(q(z
)),e
lob(
evid
ence
lowe
rbou
nd)+
∫q(z
)logq(
z)p(
z|x)
dz
kl(
q(z)
||p(
z|x)
)
對於一類資料
x (無論是音訊還是),對它們進行編碼後得到的特徵資料往往服從某種分布q(z),
z 為隱變數,q(
z)這個隱含分布我們無法得知,但是我們可以通過現有資料x來推斷出q(
z),即p(
z|x)
。kl散度是用來衡量兩個分布之間的距離,當距離為0時,表示這兩個分布完全一致。p(
x)不變,那麼想讓kl
(q(z
)||p
(z|x
))越小,即讓el
ob越大,反之亦然。因為kl
≥0,所以
logp(x
)≥el
ob。這個結論還可以通過下面的公式同樣得到:
這段公式推導的關鍵在於中間的不等式部分,即jensen不等式:logp(
x)=log(∫
p(x,
z)dz
)=log(∫(
p(x,
z)q(
z)q(
z))d
z)=logez
q(z)
[p(x
,z)q
(z)]
≥ezq
(z)log(p
(x,z
)q(z
))=e
zq(z
)logp(
x,z)
−ezq
(z)logq(
z)=∫
q(z)
logp(x
,z)d
z−∫q
(z)logq(
z)dz
ψ(e(x)
)
機器學習 2 變分推斷
對於普通的函式f x 我們可以認為 f 是乙個關於 x的乙個實數運算元,其作用是將實數 x 對映到實數f x 那麼模擬這種模式,假設存在函式運算元 f 它是關於f x 的函式運算元,可以將f x 對映成實數f f x 對於f x 我們是通過改變x來求出f x 的極值,而在變分中這個 x 會被替換成乙...
PRML 10 變分推斷 1
為什麼需要近似推斷 現在棘手的問題在於 1.計算給定觀察x後的隱變數z和引數 theta的後驗分布計算 2.計算觀測變數的邊緣分布 兩種方法達到近似推斷 1.決定性方法,有解析解,快速,但是求出的是區域性解 2.隨機性方法,慢,要取樣多次,但是可以得到全域性解 有證明的 決定性推斷有哪些?1.拉普拉...
機器學習(2) 分類問題
參考部落格 根據一些 feature 進行分類,每個節點提乙個問題,通過判斷,將資料分為兩類,再繼續提問。這些問題是根據已有資料學習出來的,再投入新資料的時候,就可以根據這棵樹上的問題,將資料劃分到合適的葉子上。個人總結 不能保證正確 一組資料的特徵用向量表示,比如 x1,x2,x3,x4 有4個特...