迴圈神經網路 GRU

2021-09-29 13:18:02 字數 1237 閱讀 2905

這裡我們首先來看一下gru是如何將lstm的三個門簡化成兩個門的結構的:

這裡的r

rr門(r門這裡同樣是乙個啟用函式)控制的是上乙個時間戳的狀態st−

1s_st−1

​對我們的當前時間戳狀態s

ts_t

st​的乙個影響,r的取值範圍依舊是在0到1之間,也就是說,當你的r門全部關閉(r = 0)的時候,就意味著將上乙個時間戳上的狀態復位了,從0開始;如果r門全部開啟(r = 1)的時候,就是保留了接收進來所有的上乙個時間戳的狀態。r就意味著是否要reset上乙個時間戳的狀態資訊,以及reset的程度是多少。

z=σ

(xtu

z+st

−1wz

)r=σ

(xtu

r+st

−1wr

)h=tanh⁡(

xtuh

+(st

−1∘r

)wh)

st=(

1−z)

∘h+z

∘st−

1\begin z &=\sigma\left(x_ u_+s_ w_\right) \\ r &=\sigma\left(x_ u_+s_ w_\right) \\ h &=\tanh \left(x_ u_+\left(s_ \circ r\right) w_\right) \\ s_ &=(1-z) \circ h+z \circ s_ \end

zrhst​

​=σ(

xt​u

z​+s

t−1​

wz​)

=σ(x

t​ur

​+st

−1​w

r​)=

tanh(x

t​uh

​+(s

t−1​

∘r)w

h​)=

(1−z

)∘h+

z∘st

−1​​

r =σ

(xtu

r+st

−1wr

)\begin r &=\sigma\left(x_ u_+s_ w_\right) \end

r​=σ(x

t​ur

​+st

−1​w

r​)​

迴圈神經網路 GRU

gru是由cho在2014年提出的,全稱是gated recurrent unit。它與lstm最大的不同在於gru將遺忘門和輸入門合成了乙個 更新門 同時網路不再額外給出記憶狀態c tc t ct 而是將輸出結果h th t ht 作為記憶狀態不斷向後迴圈傳遞,網路的輸入和輸出都變得特別簡單。具體...

GRU神經網路 介紹

之前面的部落格中,我們已經描述了基本的rnn模型。但是基本的rnn模型有一些缺點難以克服。其中梯度消失問題 vanishing gradients 最難以解決。為了解決這個問題,gru gated recurrent unit 神經網路應運而生。本篇部落格將描述gru神經網路的工作原理。gru主要思...

迴圈神經網路 卷積 池化 GRU

卷積 池化 卷積 gru from keras.models import sequential from keras import layers from keras.optimizers import rmsprop model sequential model.add layers.conv1...