機器學習 2 變分推斷

2021-07-29 13:22:39 字數 2427 閱讀 7414

對於普通的函式f(

x),我們可以認為

f 是乙個關於

x的乙個實數運算元,其作用是將實數

x 對映到實數f(

x)。那麼模擬這種模式,假設存在函式運算元

f ,它是關於f(

x)的函式運算元,可以將f(

x)對映成實數f(

f(x)

) 。對於f(

x)我們是通過改變x來求出f(

x)的極值,而在變分中這個

x 會被替換成乙個函式y(

x),我們通過改變

x 來改變y(

x),最後使得f(

y(x)

) 求得極值。

logp(

x)=logp(

x,z)

−logp(

z|x)

=logp(

x,z)

q(z)

−logp(

z|x)

q(z)

=logp(

x,z)

−logq(

z)−logp(

z|x)

q(z)

=logp(

x,z)

−logq(

z)+logq(

z)p(

z|x)

∫q(z

)logp(

x)dz

logp(x

)現在等

式兩邊同

時對q(

z)做期

望,即,

=∫q(

z)logp(x

,z)d

z−∫q

(z)logq(

z)dz

+∫q(

z)logq(z

)p(z

|x)d

z由於q

(z)與

p(x)

無關,所

以∫q(

z)logp(x

)dz=

logp(x

)原式最

終變為:

=∫q(

z)logp(x

,z)d

z−∫q

(z)logq(

z)dz













l(q

(z))

,elo

b(ev

iden

celo

werb

ound

)+∫q

(z)logq(

z)p(

z|x)

dz





kl(

q(z)

||p(

z|x)

)

推了這麼多公式,讓我們先喘口氣,來看看這些公式究竟在做什麼?

對於一類資料

x (無論是音訊還是),對它們進行編碼後得到的特徵資料往往服從某種分布q(

z),z

為隱變數,q(

z)這個隱含分布我們無法得知,但是我們可以通過現有資料x來推斷出q(

z),即p(

z|x)

。kl散度是用來衡量兩個分布之間的距離,當距離為0時,表示這兩個分布完全一致。p(

x)不變,那麼想讓kl

(q(z

)||p

(z|x

))越小,即讓el

ob越大,反之亦然。因為kl

≥0,所以

logp(x

)≥el

ob。這個結論還可以通過下面的公式同樣得到:

logp(

x)=log(∫

p(x,

z)dz

)=log(∫(

p(x,

z)q(

z)q(

z))d

z)=logez

q(z)

[p(x

,z)q

(z)]

≥ezq

(z)log(p

(x,z

)q(z

))=e

zq(z

)logp(

x,z)

−ezq

(z)logq(

z)=∫

q(z)

logp(x

,z)d

z−∫q

(z)logq(

z)dz

這段公式推導的關鍵在於中間的不等式部分,即jensen不等式:

ψ(

e(x)

)

機器學習 2 變分推斷

原創 2017年03月26日 10 55 45 對於普通的函式f x 我們可以認為 f 是乙個關於 x 的乙個實數運算元,其作用是將實數 x 對映到實數f x 那麼模擬這種模式,假設存在函式運算元 f 它是關於f x 的函式運算元,可以將f x 對映成實數f f x 對於f x 我們是通過改變x來求...

PRML 10 變分推斷 1

為什麼需要近似推斷 現在棘手的問題在於 1.計算給定觀察x後的隱變數z和引數 theta的後驗分布計算 2.計算觀測變數的邊緣分布 兩種方法達到近似推斷 1.決定性方法,有解析解,快速,但是求出的是區域性解 2.隨機性方法,慢,要取樣多次,但是可以得到全域性解 有證明的 決定性推斷有哪些?1.拉普拉...

機器學習(2) 分類問題

參考部落格 根據一些 feature 進行分類,每個節點提乙個問題,通過判斷,將資料分為兩類,再繼續提問。這些問題是根據已有資料學習出來的,再投入新資料的時候,就可以根據這棵樹上的問題,將資料劃分到合適的葉子上。個人總結 不能保證正確 一組資料的特徵用向量表示,比如 x1,x2,x3,x4 有4個特...