rnn和rnncell層的區別在於前者能夠處理整個序列,而後者一次只處理序列中乙個時間點的資料,前者封裝更完備易於使用,後者更具靈活性。rnn層可以通過組合呼叫rnncell來實現。
例1:rnn
import torch as t
from torch.autograd import variable as v
import torch.nn as nn
t.manual_seed(1000)
#batch_size 為3,句子長度為2,序列中每個元素佔4維
input=v(t.randn(2,3,4))
#輸入向量4維,3個隱藏元,1層
lstm=nn.lstm(4,3,1)
#初始狀態,1層,batch_size=3,3個隱藏元
h0=v(t.randn(1,3,3))
c0=v(t.randn(1,3,3))
out,hn=lstm(input,(h0,c0))
print(out)
#輸出tensor([[[-0.3610, -0.1643, 0.1631],
[-0.0613, -0.4937, -0.1642],
[ 0.5080, -0.4175, 0.2502]],
[[-0.0703, -0.0393, -0.0429],
[ 0.2085, -0.3005, -0.2686],
[ 0.1482, -0.4728, 0.1425]]], grad_fn=)
例2:rnncell
# 乙個lstmcell對應的層數只能是一層
lstm=nn.lstmcell(4,3)
hx=v(t.randn(3,3))
cx=v(t.randn(3,3))
out=
for i_ in input:
hx,cx=lstm(i_,(hx,cx))
print(t.stack(out))
#輸出tensor([[[-0.3610, -0.1643, 0.1631],
[-0.0613, -0.4937, -0.1642],
[ 0.5080, -0.4175, 0.2502]],
[[-0.0703, -0.0393, -0.0429],
[ 0.2085, -0.3005, -0.2686],
[ 0.1482, -0.4728, 0.1425]]], grad_fn=)
可以看到,兩者輸出的結果是一樣的。
詞向量在nlp中應用十分廣泛,pytorch同樣提供了embedding層。
# 有4個詞,每個詞用5維向量表示
embedding=nn.embedding(4,5)
# 可以用預訓練好的詞向量初始化embedding
embedding.weight.data=t.arange(0,20).view(4,5)
# 行索引index=3,2,1 也就是說從預訓練詞向量中取前3個詞向量,每個詞向量5維
input=v(t.arange(3,0,-1)).long()
print(input.size())
out=embedding(input)
print(out)
#輸出torch.size([3])
tensor([[15, 16, 17, 18, 19],
[10, 11, 12, 13, 14],
[ 5, 6, 7, 8, 9]], grad_fn=)
Pytorch pytorch中的LSTM模型
pytorch中lstm的公式表示為 pytorch中lstm的定義如下 輸入資料格式 input seq len,batch,input size h0 num layers num directions,batch,hidden size c0 num layers num directions...
單層LSTM和多層LSTM的輸入與輸出
rnn結構 對應的 為 中沒寫偏置 上圖是單層lstm的輸入輸出結構圖。其實它是由乙個lstm單元的乙個展開,如下圖所示 所以從左到右的每個lstm block只是對應乙個時序中的不同的步。在第乙個圖中,輸入的時序特徵有s個,長度記作 seq len,每個特徵是乙個c維的向量,長度記作 input ...
LSTM與RNN的區別
1.rnn rnn能夠處理一定的短期依賴,但無法處理長期依賴問題。因為當序列較長時,序列後部的梯度很難反向傳播到前面的序列,這就產生了梯度消失問題。當然,rnn也存在梯度 問題,但這個問題一般可以通過梯度裁剪 gradient clipping 來解決。rnn網路結構如下 ht 為timestep ...