這篇來說一說lstm,這兩個最大的不同之處在於lstm多了乙個門。
gru有update gate(更新門)、reset gate(重置門)。
而lstm有三個門,update gate(更新門),forget gate(遺忘門)、output gate(輸出門)。
一般說的lstm的h,c指的是:
見下圖:
可以看到右邊公式與左邊的對比,個人認為要理解lstm看公式比看圖好使。
c~為本細胞待更新的值。γu、γf、γo分別為更新門、遺忘門、輸出門,式中的δ為sigmoid函式,這讓γ趨向於0或者1。
與gru不同的地方在於c在更新時,(1-γu)變為了γf,直接用遺忘門來取值。
以及lstm對下一細胞的輸出a不再等於c,而是通過輸出門*c。
在每個結點可以有多個記憶細胞。
圖一併給上:
LSTM 長短時記憶網路
目錄參考資料 lstm 是 rnn 的公升級版,應用更廣泛。解決的問題 增加控制引數c,保留有價值的資訊 c 可以看做乙個權重列表 0,0.1,0.8,1 捨棄,小部分保留,大部分保留,全部保留。lstm 的重點是 控制引數怎麼更新 門是一種讓資訊選擇式通過的方法 sigmoid 神經網路層和一乘法...
長短期記憶網路 長短期記憶網路 LSTM 簡介
考慮這樣乙個場景,當我們在看乙個精彩的電影時,我們會被電影中的各個精彩情節所吸引,但是我們不能夠記住所有的電影情節。當觀影結束時,我們會立馬忘記電影裡面一些無關緊要的情節,留在我們腦海中的可能更多的是一些對劇情發展起關鍵作用的場景,這些場景可能在之後的很長一段時間後依然停留在我們的腦海中,以至於當我...
lstm原理 長短期記憶網路LSTM
上兩小節我們主要講述了迴圈神經網路rnn,但是儘管 rnn 被設計成可以利用歷史的資訊來 當前的決策,例如使用之前出現的單詞來加強對當前單詞的理解,但是 rnn決策的主要還是最後輸入的一些訊號,更早之前的訊號會隨著時間的推遲而變得強度越來越低,它對後續的影響越來越弱。這樣就會給rnn帶來了新的技術挑...