之前介紹的迴圈神經網路模型都是假設當前時間步是由前面的較早時間步的序列決定的,因此它們都將資訊通過隱藏狀態從前往後傳遞。有時候,當前時間步也可能由後面時間步決定。例如,當我們寫下乙個句子時,可能會根據句子後面的詞來修改句子前面的用詞。雙向迴圈神經網路通過增加從後往前傳遞資訊的隱藏層來更靈活地處理這類資訊。圖6.12演示了乙個含單隱藏層的雙向迴圈神經網路的架構。
圖6.12 雙向迴圈神經網路的架構
下面我們來介紹具體的定義。 給定時間步
tt tbq
∈r1
×q為輸出層的模型引數。不同方向上的隱藏單元個數也可以不同。
注:本節與原書基本相同,原書傳送門
動手學深度學習
線性回歸的基本要素 模型 為了簡單起見,這裡我們假設 只取決於房屋狀況的兩個因素,即面積 平方公尺 和房齡 年 接下來我們希望探索 與這兩個因素的具體關係。線性回歸假設輸出與各個輸入之間是線性關係 price warea area wage age b price warea area wage a...
動手學深度學習(一)
其中 w1 和 w2 是權重 weight b 是偏差 bias 且均為標量。訓練資料 損失函式 通常,我們用訓練資料集中所有樣本誤差的平均來衡量模型 的質量 w 1,w 2,b 為使訓練樣本平均損失最小的解 優化演算法 b 代表每個小批量中的樣本個數 批量大小,batch size 稱作學習率 l...
筆記 動手學深度學習
在求數值解的優化演算法中,小批量隨機梯度下降 mini batch stochastic gradient descent 在深度學習中被廣泛使用。它的演算法很簡單 先選取一組模型引數的初始值,如隨機選取 接下來對引數進行多次迭代,使每次迭代都可能降低損失函式的值。在每次迭代中,先隨機均勻取樣乙個由...