博主falao_beiliu寫的一篇非常好的文章。
這裡為方便自己以後速查,做個導航。
原文目錄:
限制波爾茲曼機rbm使用方法限制波爾茲曼機rbm能量模型
從能量模型到概率
求解極大似然
用到的抽樣方法
馬爾科夫蒙特卡羅簡介
參考文獻
利用上面的公式得到的是某個單元狀態為1的輸出概率。那麼怎樣才能確定這個單元的狀態是1呢?
它通過產生乙個0~1的隨機,如果這個隨機數小於上面得到的概率值,這個單元的狀態就確定為1,反之這認為這個單元的狀態為0.舉個栗子,p(h_i=1|v) = 0.7, 隨機數為0.5, 0.7>0.5,我們就認為這個單元的狀態為1.
(2) 能量模型
三個概念: 狀態,能量,概率
乙個物體處在乙個什麼的狀態,如在rbm裡就是乙個單元是0還是1;
處於某乙個狀態的能量,用e表示;
處在這個狀態下的概率是多少,用p表示,p=
f(e)
' role="presentation">p=f
(e)p
=f(e
),其中
f' role="presentation">f
f是能量函式。 p=
f(e)
' role="presentation">p=f
(e)p
=f(e
)就是能量模型。
(3) 能量函式的理解
能量函式的定義如下
「每個可視節點和隱藏節點之間的連線結構都有乙個能量,通俗來說就是可視節點的每一組取值和隱藏節點的每一組取值都有乙個能量,如果可視節點的一組取值(也就是乙個訓練樣本的值)為(1,0,1,0,1,0),隱藏節點的一組取值(也就是這個訓練樣本編碼後的值)為(1,0,1),然後分別代入上面的公式,就能得到這個連線結構之間的能量」。
(4)可視節點和隱藏節點的聯合分布
在統計熱力學中,當系統與外界處於熱平衡時,乙個狀態i發生的概率為 pi
=1z×
e−ei
kb×t
' role="presentation">pi=
1z×e
−eik
b×tp
i=1z
×e−e
ikb×
t定義可視節點和隱藏節點的聯合概率 p(
v,h)
=e−e
(v,h
)∑v,
he−e
(v,h
)' role="presentation">p(v
,h)=
e−e(
v,h)
∑v,h
e−e(
v,h)
p(v,
h)=e
−e(v
,h)∑
v,he
−e(v
,h)從聯合概率密度可以得到其他的概率:
(5) rbm幹了些什麼事情?
上面定義能量函式和乙個聯合概率。換句話說,我們已經把每一種輸入與乙個概率想對應了。然而這個概率並不是資料原本的概率分布,而是我們想象的,能夠最大可能擬合輸入資料的概率分布。
(6) kl距離
引用作者的原話:
假設ω表示樣本空間,q是輸入樣本的分布,即q(x)表示訓練樣本x的概率,kl距離描述了兩個分布的相似程度,kl距離大於零。kl距離越小,兩個分布越相似。q是要擬合的那個樣本表示分布的概率;
假設p是rbm網路表示的gibbs分布的邊緣分布(只跟可視節點有關,隱藏節點是通過積分去掉了,可以理解為可視節點的各個狀態的分布);
輸入樣本的集合是s,那現在就可以定義樣本表示的分布和rbm網路表示的邊緣分布的kl距離
上式中第一項是熵,由輸入決定;第二項無法直接求解。
(7) 通過極大似然估計求解引數
受限玻爾茲曼機二
限制波爾茲曼機rbm使用方法 限制波爾茲曼機rbm能量模型 從能量模型到概率 求解極大似然 用到的抽樣方法 馬爾科夫蒙特卡羅簡介 參考文獻 利用上面的公式得到的是某個單元狀態為1的輸出概率。那麼怎樣才能確定這個單元的狀態是1呢?它通過產生乙個0 1的隨機,如果這個隨機數小於上面得到的概率值,這個單元...
受限玻爾茲曼基
受限波爾茲曼網路rbm是乙個雙層網路 可見層和隱含層。前面描述的神經網路模型是一種確定的結構。而波爾茲曼網路是一種隨機網路。如何來描述乙個隨機網路呢?很多書上有大量的篇幅介紹其原理。這裡把它總結為以下兩點。第一,概率分布函式。由於網路節點的取值狀態是隨機的,從貝葉斯網的觀點來看,要描述整個網路,需要...
玻爾茲曼機
結構 兩層的神經網路 可視層與隱藏層 雙向全連線 即可視層作為輸入用於啟用隱藏層單元,隱藏層作為輸入用於啟用可視層單元 輸入資訊重構 目的 輸入向量v 與輸出向量 h 隱藏層的輸出 盡可能一一對應。即 h進可能是 v的編碼。只有h與 v一一對應,重構資訊才能與v與 v 誤差盡可能小。構造乙個 v,h...