深度學習與生成式模型

2021-07-22 16:07:48 字數 2152 閱讀 2454

main pointsoutline:7. 深度學習模型的求解方法(蒙特卡洛取樣、變分推斷、對抗網路)

8. 幾種經典生成式模型(dbn、autoencoder、對抗網路、變分推斷網路)介紹。闡釋深度學習在生成式模型的應用。

以高斯混合模型(gmm)、樸素貝葉斯(naïve bayes)為代表的生成式模型採用淺層結構,這些結構在解決很多簡單的或者限制較多的問題上效果明顯,但是由於其建模和表示能力有限,在遇到一些更複雜的涉及自然訊號(比如人類語言、自然影象和視覺場景)的問題時就會遇到各種困難。

深度學習(deep learning)是機器學習的子領域,它是一類通過多層表示來對資料之間的複雜關係進行建模的演算法。高層的特徵和概念取決於低層概念,而且同一低層的概念有助於確定多個高層概念。深度學習的概念起源於對人工神經網路的研究,其突破在於經驗性地緩解了深層神經網路容易陷入區域性最優的問題。2023年hinton提出的深度學習開創性**[2 3]介紹了一類叫作深度信念網路(deep belief network, dbn) 的深度產生式模型。dbn是由一組受限玻爾茲曼機(rbms)堆疊而成的深度生成式網路,它的核心部分是貪婪的、逐層學習的演算法,這種演算法可以最優化深度置信網路的權重,使用配置好的深度置信網路來初始化多層感知器的權重,常常會得到比隨機初始化的方法更好的結果。在深度神經網路(deep neural network,dnn)的高度非凸優化問題中,以無監督方式預訓練的生成式模型(dbn)可以提供良好的初始點,然後通過有監督的反向傳播演算法微調權值,從而有效解決深度網路的區域性最優情況和欠擬合問題。這種生成式模型與判別式模型相結合的預訓練/微調策略,極大地推動了深度學習早期的發展。

深度信念網路(deep belief network,dbn)是早期深度生成式模型的典型代表,它由多層神經元構成,這些神經元又分為可見神經元和隱性神經元,可見單元用於接受輸入,隱單元用於提取特徵。網路最頂上的兩層間的連線是無向的,組成聯合記憶體 (associative memory),較低的其他層之間有連線上下的有向連線。最底層代表了資料向量 (data vectors),每乙個神經元代表資料向量的一維。dbn的組成元件是受限玻爾茲曼機(restricted boltzmann machines ,rbm)。單個rbm由兩層網路組成,一層叫做可見層 (visible layer),由可見單元 (visible units) 組成,用於輸入訓練資料;另一層叫做隱層 (hidden layer),由隱單元 (hidden units) 組成,用作特徵檢測器 (feature detectors)。rbm既是乙個生成模型,也是乙個無監督模型,因為它使用隱變數來描述輸入資料的分布,而且這個過程沒有涉及資料的標籤資訊。單層rbm網路的學習目標是無監督地訓練網路,使得可見層節點v的分布p(v)最大可能地擬合輸入樣本所在樣本空間的真實分布q(v)。通過計算可見向量p(v)的對數似然log p(v)的梯度來更新rbm的權值,這個計算過程涉及到了求解rbm模型所確定分布上的期望。對於生成式模型概率推斷過程中遇到的計算某分布下函式的期望、計算邊緣概率分布等複雜問題,可以採用蒙特卡洛思想近似求解。dbn採用對比散度(contrastive divergence, cd-k)演算法,利用gibbs取樣的方法來估計rbm的對數似然梯度。多個rbm堆疊組成乙個dbn,將隱單元的啟用概率(activation probabilities)作為下一層rbm的可見層輸入資料,從底向上逐層預訓練。dbn是一種生成模型,通過訓練其神經元間的權重,我們可以讓整個神經網路按照最大概率來生成訓練資料。生成樣本時,使用訓練好的隨機隱單元狀態值,首先在網路最頂兩層進行多次gibbs取樣,生成該分布下的取樣,然後向下傳播,得到每層的狀態和最終的樣本。

[1] 李航.統計學習方法[m].北京:清華大學出版社,2012.

[2] g. hinton, s. osindero, and y. the. a fast learning algorithm for deep belief nets. neural computation,18:1527-1554,2006.

[3] g. hinton and r.salakhutdinov. reducing the dimensionality of data with neural networks.science,313(5786):504-507,july 2006.

深度學習模型儲存 深度學習分布式模型

背景 隨著各大企業和研究機構在pytorch tensorflow keras mxnet等深度學習框架上面訓練模型越來越多,專案的資料和計算能力需求急劇增加。在大部分的情況下,模型是可以在單個或多個gpu平台的伺服器上執行的,但隨著資料集的增加和訓練時間的增長,有些訓練需要耗費數天甚至數週的時間,...

判別式模型與生成式模型

判別式模型 該模型主要對p y x 建模,通過x來 y。在建模的過程中不需要關注聯合概率分布。只關心如何優化p y x 使得資料可分。通常,判別式模型在分類任務中的表現要好於生成式模型。但判別模型建模過程中通常為有監督的,而且難以被擴充套件成無監督的。常見的判別式模型有 logistic regre...

判別式模型與生成式模型

產生式模型 generative model 與判別式模型 discrimitive model 是分類器常遇到的概念,它們的區別在於 對於輸入x,類別標籤y 產生式模型估計它們的聯合概率分布p x,y 判別式模型估計條件概率分布p y x 產生式模型可以根據貝葉斯公式得到判別式模型,但反過來不行。...