受限玻爾茲曼基

2022-02-21 21:36:07 字數 1870 閱讀 8274

受限波爾茲曼網路rbm是乙個雙層網路:可見層和隱含層。

前面描述的神經網路模型是一種確定的結構。而波爾茲曼網路是一種隨機網路。如何來描述乙個隨機網路呢?很多書上有大量的篇幅介紹其原理。這裡把它總結為以下兩點。

第一,概率分布函式。由於網路節點的取值狀態是隨機的,從貝葉斯網的觀點來看,要描述整個網路,需要用三種概率分布來描述系統。即聯合概率分布(多個條件同時滿足的概率),邊緣概率分布(高維變數中的低維變數的分布)和條件概率分布。要搞清楚這三種不同的概率分布,是理解隨機網路的關鍵,這裡向大家推薦的書籍是張連文所著的《貝葉斯網引論》。很多文獻上說受限波爾茲曼是乙個無向圖,這一點也有失偏頗。從貝葉斯網的觀點看,受限波爾茲曼網應該是乙個雙向的有向圖。即從輸入層節點可以計算隱層節點取某一種狀態值的概率,反之亦然.

第二,能量函式。隨機神經網路是根植於統計力學的。受統計力學中能量泛函的啟發,引入了能量函式。能量函式是描述整個系統狀態的一種測度。系統越有序或者概率分布越集中,系統的能量越小。反之,系統越無序或者概率分布越趨於均勻分布,則系統的能量越大。能量函式的最小值,對應於系統的最穩定狀態。(好比社會裡面,階級分明會更穩定)

正如前面我們提到的,描述rbm的方法是能量函式和概率分布函式。實際上,把它們二者結合起來,也就是概率分布是能量函式的泛函(從

函式空間

到數域的對映),其能量泛函和聯合概率分布如下:

(ai和bi為偏置量)

其中,上式中的z是歸一化係數,它的定義如下:

而輸入層的邊緣概率,是我們感興趣的,它的計算如下:

(4)因為,網路學習的目的是最大可能的擬合輸入資料。根據極大似然學習法則,我們的目的就是對所以的輸入,極大化上面的公式(4)(已經出現的是最可能出現的),公式4在統計學裡也稱作似然函式,更多的我們對其取對數,也就是對數似然函式,考慮所有的輸入樣本,其極大化對數似然函式的定義如下:

(5)注意,上面的公式中,多了個theta。theta就是網路的權值,包括公式(1)中的w,a,b,是網路學習需要優化的引數。其實在上面所有的公式中都有theta這個變數,只是為了便於描述問題,我把它們都給抹掉了。

根據公式5,逐步展開,運用梯度下降策略,可以推導出網路權值的更新策略如下:

其中,第一項,是給定樣本資料的期望,第二項是模型本身的期望。資料的期望,很容易計算,而模型的期望不能直接得到。一種典型的方法是通過吉布斯取樣得到,而hinton提出了一種快速演算法,稱作contrastive divergence演算法。這種演算法只需迭代k次,就可以獲得對模型的估計,而通常k等於1. cd演算法在開始是用訓練資料去初始化可見層,然後用條件分布計算隱層;然後,再根據隱層用條件分布來計算可見層。這樣產生的結果是對輸入的乙個重構。cd演算法將上述公式6表示為:

受限玻爾茲曼機二

限制波爾茲曼機rbm使用方法 限制波爾茲曼機rbm能量模型 從能量模型到概率 求解極大似然 用到的抽樣方法 馬爾科夫蒙特卡羅簡介 參考文獻 利用上面的公式得到的是某個單元狀態為1的輸出概率。那麼怎樣才能確定這個單元的狀態是1呢?它通過產生乙個0 1的隨機,如果這個隨機數小於上面得到的概率值,這個單元...

受限玻爾茲曼機二

博主falao beiliu寫的一篇非常好的文章。這裡為方便自己以後速查,做個導航。原文目錄 限制波爾茲曼機rbm使用方法 限制波爾茲曼機rbm能量模型 從能量模型到概率 求解極大似然 用到的抽樣方法 馬爾科夫蒙特卡羅簡介 參考文獻 利用上面的公式得到的是某個單元狀態為1的輸出概率。那麼怎樣才能確定...

玻爾茲曼機

結構 兩層的神經網路 可視層與隱藏層 雙向全連線 即可視層作為輸入用於啟用隱藏層單元,隱藏層作為輸入用於啟用可視層單元 輸入資訊重構 目的 輸入向量v 與輸出向量 h 隱藏層的輸出 盡可能一一對應。即 h進可能是 v的編碼。只有h與 v一一對應,重構資訊才能與v與 v 誤差盡可能小。構造乙個 v,h...