特點:上一階段(時間步)的輸出作為輸入進入當前時間步。
迴圈神經網路由迴圈神經原組成,迴圈神經元一般有兩個輸入,乙個是前階段的資訊,乙個是當前階段的資訊。同時產生乙個輸出,可以作為下一階段的輸入。
迴圈神經網路採用多種模型。
左上:每個時間步有乙個輸入,同時產生乙個輸出
右上:一串輸入,最後產生乙個輸出。
左下:乙個輸入,一串輸出
右下:編碼-解碼器。
每一層的輸出可以通過如下方式計算:
和之前的深度神經網路一樣,迴圈神經網路也使用反向自動微分進行訓練,但是不同的是,虛擬神經網路需要首先按照時間展開成為乙個深度神經網路然後再使用反向自動微分,雖然展開的深度神經網路有很多層,但是迴圈神經網路的訓練值仍然只有原來的數量。
這裡之前深度學習中的方法都能夠使用,此外還有一種更直接的方法,叫做截斷時間反向傳播演算法,也就是說我們對迴圈神經元的按時間展開的時間步進行限制,也就限制了展開的深度網路的層數。
這兩種所謂的迴圈神經單元與之前的普通迴圈神經單元類似,但是它們更主要的作用在於將距離較遠的資訊儲存下來。
以下是兩種迴圈神經元的計算方法:
顯然引數增加了許多。
結構圖
單詞的表示方法:
單詞嵌入:使用神經網路的方法,將單詞表示為n維向量,使性質相似的詞的向量表示也相似。
迴圈神經網路
原文 迴圈神經網路也可以畫成下面這個樣子 對於語言模型來說,很多時候光看前面的詞是不夠的,比如下面這句話 我的手機壞了,我打算 一部新手機。可以想象,如果我們只看橫線前面的詞,手機壞了,那麼我是打算修一修?換一部新的?還是大哭一場?這些都是無法確定的。但如果我們也看到了橫線後面的詞是 一部新手機 那...
迴圈神經網路
原文 迴圈神經網路也可以畫成下面這個樣子 對於語言模型來說,很多時候光看前面的詞是不夠的,比如下面這句話 我的手機壞了,我打算 一部新手機。可以想象,如果我們只看橫線前面的詞,手機壞了,那麼我是打算修一修?換一部新的?還是大哭一場?這些都是無法確定的。但如果我們也看到了橫線後面的詞是 一部新手機 那...
迴圈神經網路
rnn rnn便於處理具有時序關係的任務 引入 記憶 概念 基本結構 輸出不僅依賴於輸入,還依賴於記憶 將同乙個結構迴圈利用 兩種輸入,兩種輸出,一種函式 三塊引數 u 從輸入到隱藏狀態 v 從隱藏狀態到輸出 xt 時間t處的輸入 ht 時間t處的記憶,ht f ht 1,xt f可以是tanh等 ...