迴圈神經網路只有乙個單向的隱藏層,在深度學習應用裡,我們通常會用到含有多個隱藏層的迴圈神經網路,也稱作深度迴圈神經網路。
下圖演示了乙個有l
ll個隱藏層的深度迴圈神經網路,每個隱藏狀態不斷傳遞至當前層的下一時間步和當前時間步的下一層。
具體來說
第1隱藏層的隱藏狀態和之前的計算一樣:
h t(
1)=ϕ
(xtw
xh(1
)+ht
−1(1
)whh
(1)+
bh(1
)),\boldsymbol_t^ = \phi(\boldsymbol_t \boldsymbol_^ + \boldsymbol_^ \boldsymbol_^ + \boldsymbol_h^),
ht(1)
=ϕ(x
twx
h(1)
+ht
−1(1
)wh
h(1)
+bh
(1)
),其中權重wxh
(1)∈
rd×h
\boldsymbol_^ \in \mathbb^
wxh(1)
∈rd
×h、w hh
(1)∈
rh×h
\boldsymbol_^ \in \mathbb^
whh(1)
∈rh
×h和偏差 bh(
1)∈r
1×h\boldsymbol_h^ \in \mathbb^
bh(1)
∈r1×
h分別為第1隱藏層的模型引數。
當1
l1 < \ell \leq l
1l時,第ℓ
\ell
ℓ隱藏層的隱藏狀態的表示式為
h t(
ℓ)=ϕ
(ht(
ℓ−1)
wxh(
ℓ)+h
t−1(
ℓ)wh
h(ℓ)
+bh(
ℓ)),
\boldsymbol_t^ = \phi(\boldsymbol_t^ \boldsymbol_^ + \boldsymbol_^ \boldsymbol_^ + \boldsymbol_h^),
ht(ℓ)
=ϕ(h
t(ℓ−
1)w
xh(ℓ
)+h
t−1(
ℓ)w
hh(ℓ
)+b
h(ℓ)
),其中權重wxh
(ℓ)∈
rh×h
\boldsymbol_^ \in \mathbb^
wxh(ℓ)
∈rh
×h、w hh
(ℓ)∈
rh×h
\boldsymbol_^ \in \mathbb^
whh(ℓ)
∈rh
×h和偏差 bh(
ℓ)∈r
1×h\boldsymbol_h^ \in \mathbb^
bh(ℓ)
∈r1×
h分別為第ℓ
\ell
ℓ隱藏層的模型引數。
最終,輸出層的輸出只需基於第l
ll隱藏層的隱藏狀態:
o t=
ht(l
)whq
+bq,
\boldsymbol_t = \boldsymbol_t^ \boldsymbol_ + \boldsymbol_q,
ot=ht
(l)
whq
+bq
,其中權重whq
∈rh×
q\boldsymbol_ \in \mathbb^
whq∈r
h×q和偏差bq∈
r1×q
\boldsymbol_q \in \mathbb^
bq∈r1
×q為輸出層的模型引數。
同多層感知機一樣,隱藏層個數l
ll和隱藏單元個數h
hh都是超引數。此外,如果將隱藏狀態的計算換成門控迴圈單元或者長短期記憶的計算,就可以得到深度門控迴圈神經網路。
pytorch 深度學習
pytorch深度學習實踐 訓練集 開發集 模型評估 測試集。f x wx b f x wx b f x w x bloss 乙個樣本 cost mean square error training set 區域性最優,不一定全域性最優。鞍點 梯度為0,但無法繼續迭代。w w c ost ww w ...
深度學習 安裝pytorch
1 官網 2 cmd中執行 注意 直接複製run this command 裡面的安裝 注意 把pip3的3刪除 第一步 pip install i 第二步 pip install torchvision 注意 第一步和第二步可以合併為pip install i torchvision 3 安裝技巧...
PyTorch 深度學習 筆記
方差 偏差 線性回歸來確定兩種或兩種以上變數間相互依賴的定量關係。線性回歸對於輸入x和輸出y有乙個對映 類似ax b 而我們是訓練a b這兩個引數。以下 使用pytorch建立乙個線性的模型來對其進行擬合,即訓練過程。def linear ex x np.random.rand 256 noise ...