生成對抗網路記錄(二)

2021-08-26 20:38:00 字數 2553 閱讀 8758

最近看了李巨集毅老師關於gan的課程,並閱讀了一些相關的**,做一些筆記以便日後回顧。

文字轉化為影象,如果僅僅通過傳統的有監督學習,將會導致生成的影象很模糊。比如,影象為多個火車的不同側面圖與正面圖,有監督學習學到的最終將是這些的平均。因此需要使用gan去訓練。如果只是採用傳統的gan的話,輸入文字與分布z,generator生成一幅影象,將會導致訓練完後generator生成的和目標很相近,但是與輸入的文字可能沒有關係。因此出現了conditional gan。

conditional gan的目標不僅僅是讓generator生成的分布於原始資料分布盡可能相似,而且需要輸入的條件如文字轉影象中的文字與影象兩者需要匹配。因此演算法如下:

可以看到唯一的差別就是新增了一項匹配損失。

condition gan有兩種網路形式

gan可以用於seq to seq問題中。seq2seq一般用最大似然求解,但是最大似然得到的結果往往不是很好,如are you ok?回答i am john與not nad,往往最大似然認為前者比較好。此時可以通過兩種方式提公升seq2seq的效果:強化學習或gan。兩者可以結合使用。

下圖為乙個機械人聊天的例子,輸入句子,輸出回答句子。首先用rl解決該問題。用generator生成輸出,generator要最大化收益期望。這個期望由人來給乙個獎勵值,來評價輸入與輸出的句子是是否匹配。

如何最大化收益呢,可以用過強化學習中的policy gradient實現。對於seq2seq,每次輸入,輸出是乙個概率,因此輸入c,輸出的x是乙個分布。收益的期望值為

即最大化下面的期望

對收益求導即policy gradient

因此引數的更新方式為

因此當r大於0的時候,引數值增加,當r小與0時,引數值減少。

rl與最大似然的區別如下

當取樣的xi的reward都是正的,引數值將無法準確更新,往往這個時候會在r上減去乙個數,讓其有正有負。

由於現實情境中人的互動很難那麼頻繁,reward不會隨著模型訓練進行實時反饋。因此可以將rl與gan結合使用。

該rl過程和conditional gan類似,generator最小化輸出與實際輸出的差異,即最大化獎勵,discriminator不僅需要最大化生成的句子與實際輸出的差異,即判斷當前輸出的句子是真的還是假的(回饋獎勵),同時需要輸入的句子與輸出的句子盡可能的匹配。用discriminator代替人去反饋獎勵。

在seq2seq中gan的結構是這樣的,輸入seq2seq乙個token,輸出乙個token,將生成的token輸入到discriminator中,輸出乙個分數。

seq2seq中輸出時是乙個取樣過程,輸出一串token,它是不可微分的。在取樣的過程中,對輸出的影響是不確定的。因此是不可微分的。有多種方式解決該問題:1、使輸出連續2、使用強化學習。

使用輸出連續有種方式是將輸出的token變為概率分布,取代直接取樣。由於實際的輸出是0和1,而生成的是乙個概率分布,discriminator對於這兩者分辨比較容易,generator最終生成的分布預設為尖峰分布,這是不太合理的,語言模型輸出的分布不一定是尖峰分布。

通過使用強化學習,使用policy gradient去更新generator,讓generator收益最大,該收益的求解可以通過discriminator的輸出求到。

該求解是在每一步進行收益的求解的求和,

如what』s your name,在回答i don』t know時,整體比較差,因此i下降,don』t下降等,但i其實應該是上公升的。如果另乙個取樣回答 i am john時,i又會上公升,因此取樣足夠多的時候,該影響可以抵消。但實際情況並不會取樣如此均勻。因此可以進行改進,對每一步進行求解收益,而不是只求解最終的收益。其中一種實現可以通過蒙特卡羅搜尋實現。通過gan生成的句子與最大似然的句子對比,往往gan生成的會更長與更複雜。

半監督生成對抗網路 生成對抗網路

一 生成對抗網路相關概念 一 生成模型在概率統計理論中,生成模型是指能夠在給定某些隱含引數的條件下,隨機生成觀測資料的模型,它給觀測值和標註資料序列指定乙個聯合概率分布。在機器學習中,生成模型可以用來直接對資料建模,也可以用來建立變數間的條件概率分布。通常可以分為兩個型別,一種是可以完全表示出資料確...

生成對抗網路

我們提出乙個框架來通過對抗方式評估生成模型,我們同時訓練兩個模型 乙個生成模型g捕捉資料分布,乙個鑑別模型d估計乙個樣本來自於訓練資料而不是g的概率。g的訓練過程是最大化d犯錯的概率。這個框架與minmax兩個玩家的遊戲相對應。在任意函式g和d的空間存在乙個唯一解,g恢復訓練資料的分布,d等於1 2...

生成對抗網路

0.監督和無監督 本質 有無標籤資料 1.自動編碼器 只是重構原輸入 輸入 編碼 中間表示 潛在表示,code 解碼 重構 通常用於 1 忽略雜訊 2 壓縮維度 有聚類效果 可以達到pca和主成分分析效果 2.變分自動編碼器 vae variational autoencoders 可以生成新的樣本...