接上
9.3、restricted boltzmann machine (rbm)限制波爾茲曼機
假設有乙個二部圖,每一層的節點之間沒有鏈結,一層是可視層,即輸入資料層(v),一層是隱藏層(h),如果假設所有的節點都是隨機二值變數節點(只能取0或者1值),同時假設全概率分布p(v,h)滿足boltzmann 分布,我們稱這個模型是restricted boltzmannmachine (rbm)。
下面我們來看看為什麼它是deep learning方法。首先,這個模型因為是二部圖,所以在已知v的情況下,所有的隱藏節點之間是條件獨立的(因為節點之間不存在連線),即p(h|v)=p(h1|v)…p(hn|v)。同理,在已知隱藏層h的情況下,所有的可視節點都是條件獨立的。同時又由於所有的v和h滿足boltzmann 分布,因此,當輸入v的時候,通過p(h|v) 可以得到隱藏層h,而得到隱藏層h之後,通過p(v|h)又能得到可視層,通過調整引數,我們就是要使得從隱藏層得到的可視層v1與原來的可視層v如果一樣,那麼得到的隱藏層就是可視層另外一種表達,因此隱藏層可以作為可視層輸入資料的特徵,所以它就是一種deep learning方法。
如何訓練呢?也就是可視層節點和隱節點間的權值怎麼確定呢?我們需要做一些數學分析。也就是模型了。
聯合組態(jointconfiguration)的能量可以表示為:
而某個組態的聯合概率分布可以通過boltzmann 分布(和這個組態的能量)來確定:
因為隱藏節點之間是條件獨立的(因為節點之間不存在連線),即:
然後我們可以比較容易(對上式進行因子分解factorizes)得到在給定可視層v的基礎上,隱層第j個節點為1或者為0的概率:
同理,在給定隱層h的基礎上,可視層第i個節點為1或者為0的概率也可以容易得到:
給定乙個滿足獨立同分布的樣本集:d=,我們需要學習引數θ=。
我們最大化以下對數似然函式(最大似然估計:對於某個概率模型,我們需要選擇乙個引數,讓我們當前的觀測樣本的概率最大):
也就是對最大對數似然函式求導,就可以得到l最大時對應的引數w了。
如果,我們把隱藏層的層數增加,我們可以得到deep boltzmann machine(dbm);如果我們在靠近可視層的部分使用貝葉斯信念網路(即有向圖模型,當然這裡依然限制層中節點之間沒有鏈結),而在最遠離可視層的部分使用restricted boltzmann machine,我們可以得到deepbelief net(dbn)。
9.4、deep belief networks深信度網路
dbns是乙個概率生成模型,與傳統的判別模型的神經網路相對,生成模型是建立乙個觀察資料和標籤之間的聯合分布,對p(observation|label)和 p(label|observation)都做了評估,而判別模型僅僅而已評估了後者,也就是p(label|observation)。對於在深度神經網路應用傳統的bp演算法的時候,dbns遇到了以下問題:
(1)需要為訓練提供乙個有標籤的樣本集;
(2)學習過程較慢;
(3)不適當的引數選擇會導致學習收斂於區域性最優解。
dbns由多個限制玻爾茲曼機(restricted boltzmann machines)層組成,乙個典型的神經網路型別如圖三所示。這些網路被「限制」為乙個可視層和乙個隱層,層間存在連線,但層內的單元間不存在連線。隱層單元被訓練去捕捉在可視層表現出來的高階資料的相關性。
首先,先不考慮最頂構成乙個聯想記憶(associative memory)的兩層,乙個dbn的連線是通過自頂向下的生成權值來指導確定的,rbms就像乙個建築塊一樣,相比傳統和深度分層的sigmoid信念網路,它能易於連線權值的學習。
最開始的時候,通過乙個非監督貪婪逐層方法去預訓練獲得生成模型的權值,非監督貪婪逐層方法被hinton證明是有效的,並被其稱為對比分歧(contrastive divergence)。
在這個訓練階段,在可視層會產生乙個向量v,通過它將值傳遞到隱層。反過來,可視層的輸入會被隨機的選擇,以嘗試去重構原始的輸入訊號。最後,這些新的可視的神經元啟用單元將前向傳遞重構隱層啟用單元,獲得h(在訓練過程中,首先將可視向量值對映給隱單元;然後可視單元由隱層單元重建;這些新可視單元再次對映給隱單元,這樣就獲取新的隱單元。執行這種反覆步驟叫做吉布斯取樣)。這些後退和前進的步驟就是我們熟悉的gibbs取樣,而隱層啟用單元和可視層輸入之間的相關性差別就作為權值更新的主要依據。
訓練時間會顯著的減少,因為只需要單個步驟就可以接近最大似然學習。增加進網路的每一層都會改進訓練資料的對數概率,我們可以理解為越來越接近能量的真實表達。這個有意義的拓展,和無標籤資料的使用,是任何乙個深度學習應用的決定性的因素。
在最高兩層,權值被連線到一起,這樣更低層的輸出將會提供乙個參考的線索或者關聯給頂層,這樣頂層就會將其聯絡到它的記憶內容。而我們最關心的,最後想得到的就是判別效能,例如分類任務裡面。
在預訓練後,dbn可以通過利用帶標籤資料用bp演算法去對判別效能做調整。在這裡,乙個標籤集將被附加到頂層(推廣聯想記憶),通過乙個自下向上的,學習到的識別權值獲得乙個網路的分類面。這個效能會比單純的bp演算法訓練的網路好。這可以很直觀的解釋,dbns的bp演算法只需要對權值引數空間進行乙個區域性的搜尋,這相比前向神經網路來說,訓練是要快的,而且收斂的時間也少。
dbns的靈活性使得它的拓展比較容易。乙個拓展就是卷積dbns(convolutional deep belief networks(cdbns))。dbns並沒有考慮到影象的2維結構資訊,因為輸入是簡單的從乙個影象矩陣一維向量化的。而cdbns就是考慮到了這個問題,它利用鄰域畫素的空域關係,通過乙個稱為卷積rbms的模型區達到生成模型的變換不變性,而且可以容易得變換到高維影象。dbns並沒有明確地處理對觀察變數的時間聯絡的學習上,雖然目前已經有這方面的研究,例如堆疊時間rbms,以此為推廣,有序列學習的dubbed temporal convolutionmachines,這種序列學習的應用,給語音頻號處理問題帶來了乙個讓人激動的未來研究方向。
目前,和dbns有關的研究包括堆疊自動編碼器,它是通過用堆疊自動編碼器來替換傳統dbns裡面的rbms。這就使得可以通過同樣的規則來訓練產生深度多層神經網路架構,但它缺少層的引數化的嚴格要求。與dbns不同,自動編碼器使用判別模型,這樣這個結構就很難取樣輸入取樣空間,這就使得網路更難捕捉它的內部表達。但是,降噪自動編碼器卻能很好的避免這個問題,並且比傳統的dbns更優。它通過在訓練過程新增隨機的汙染並堆疊產生場泛化效能。訓練單一的降噪自動編碼器的過程和rbms訓練生成模型的過程一樣。
下續
深度學習 六 優化
1.優化器 tensorflow 1.1 tf.train.gradientdescentoptimizer 梯度下降 表示式 傳入學習率,目標優化損失 tf.train.gradientdescentoptimizer learning rate minimize loss 1.2 tf.trai...
深度學習總結六 VGG
證明了網路的深度在一定程度上提公升了模型的效果。2個33的卷積核相當於1個55的卷積核,並且前者訓練引數更少。網路c比b多乙個1 1的卷積核,即增加乙個非線性函式,增加模型複雜度。網路d在c的基礎上將11卷積核修改為33卷積核,增大感受野,效果更好。使用帶有動量的mini batch梯度下降法,ba...
深度學習(六) 目標檢測
多個目標 思路 區域性識別問題 優點生成候選位置 擴充套件 過程 優點 缺點 候選位置提醋和方法 候選框進行svm分類 fine tune分類模型 特徵提取 單獨目標探測器訓練 資料集 評估方法 iou 優點 缺點 特徵一致化max pooling 位置 類別 聯合學習 速度快了精度提公升不多 怎麼...