image captioning 是由cnn和rnn連線起來的網路
cnn處理圖形後不再產生乙個向量,而是對的每個位置各產生乙個向量,即輸入到rnn的是乙個向量組
hard attention 不可微分,需要高階bp演算法(增強學習中會介紹)
將rnn單元縮寫
whh,whx兩個矩陣橫著擺放
ht-1和xt豎著擺
由於rnn序列很長,會出現梯度消失和梯度**問題
梯度**使用gradient clipping解決
梯度消失使用lstm
具體的反向傳播過程如下:
通過ct,可以傳回梯度(ct能傳回來梯度,對應單元的w也就有了梯度)
乘的不再是矩陣,而是f,每次乘的f不一樣,所有消失的慢。而且不經過tanh
f門的偏置可以初始為較大的值,以使得啟用後不為0
lstm和gru改變一點都會效果變差,無法改進。。。
gru如下圖
第十講 迴圈神經網路 課時22 語言模型
language model即語言生成模型 character level language model 訓練過程 訓練過程的輸入時給定的,結果是乙個向量,進過softmax後就是為各個character的概率 測試過程 輸入是前乙個的輸出,輸出是由soft max 之後的概率分布 取樣得到的 如果...
迴圈神經網路
原文 迴圈神經網路也可以畫成下面這個樣子 對於語言模型來說,很多時候光看前面的詞是不夠的,比如下面這句話 我的手機壞了,我打算 一部新手機。可以想象,如果我們只看橫線前面的詞,手機壞了,那麼我是打算修一修?換一部新的?還是大哭一場?這些都是無法確定的。但如果我們也看到了橫線後面的詞是 一部新手機 那...
迴圈神經網路
原文 迴圈神經網路也可以畫成下面這個樣子 對於語言模型來說,很多時候光看前面的詞是不夠的,比如下面這句話 我的手機壞了,我打算 一部新手機。可以想象,如果我們只看橫線前面的詞,手機壞了,那麼我是打算修一修?換一部新的?還是大哭一場?這些都是無法確定的。但如果我們也看到了橫線後面的詞是 一部新手機 那...