RNN,LSTM,GRU網路的架構對比

2021-09-02 11:42:25 字數 2058 閱讀 4896

前言

接下來要用到時間序列網路做實驗,lstm應該是個不錯的選擇,今年6月份時候快速的過了一遍lstm網路各個門控結構的定義,並跟著網路教程做了小demo實驗。轉眼又過去半年了,在這半年裡接觸、學習了很多的東西,深感自己之前學習東西都是一知半解,等於在一直快速搭框架,具體內容和細節把握的極差。有句俗語:溫故而知新。現在趁著還沒畢業,是時候填充我搭的框架了,相信我會一步步學的更加牢固!

在序列挖掘領域傳統的機器學習方法有hmm(hidden markov model,隱馬爾可夫模型)和crf(conditional random field,條件隨機場),近年來又開始流行深度學習演算法rnn(recurrent neural networks,迴圈神經網路)。序列挖掘的特點就是某一步的輸出不僅依賴於這一步的輸入,還依賴於其他步的輸入或輸出,中文分詞、詞性標註、命名實體識別、機器翻譯、語音識別都屬於序列挖掘的範疇。

rnn的結構展開是這樣的,將資料按照時間步輸入網路,每個時間步有乙個對應的隱藏層輸出傳遞給下乙個時間步隱藏層,從而達到時間序列資訊的傳遞。

網路上關於rnn、lstm、gru的網路架構隨處可見,因為是二次學習,我就直接上三個的架構圖進行對比了。

rnn的架構圖,每個單元只有乙個tanh啟用,很容易看到和下乙個時間步資訊的傳遞。

rnn可以看成乙個在時間上傳遞的神經網路,它的深度是時間的長度,在時間軸上,「梯度消失」的現象不可避免的出現了,對於 t 時刻來講,它產生的梯度在時間軸上向歷史傳播幾層之後就消失了,根本無法影響太遙遠的過去。「所有歷史」共同作用只是理想的情況,在實際中,這種影響也就只能維持若干個時間戳(或許是不是我們找到乙個非梯度傳播的方法來替代,就可以達到理想情況了呢?)。為了解決「梯度消失問題」,出現了改進版的lstm架構。

lstm的架構圖,lstm 的關鍵就是細胞狀態,水平線在圖上方貫穿執行。細胞狀態類似於傳送帶。直接在整個鏈上執行,只有一些少量的線**互。資訊在上面流傳保持不變會很容易。

lstm有通過精心設計的稱作「門」的結構來去除或者增加資訊到細胞狀態的能力。門是一種讓資訊選擇式通過的方法。他們包含乙個sigmoid神經網路層和乙個pointwise乘法操作。

sigmoid層輸出0到1之間的數值,描述每個部分有多少量可以通過。 0代表「不許任何量通過」 ;1代表「允許任何量通過」 。

lstm 擁有三個門,來保護和控制細胞狀態,分別是:遺忘門、輸入門、輸出門。在輸出門前面會進行當前時間的細胞狀態更新。每乙個狀態會傳遞乙個隱藏層特徵和細胞狀態特徵給下乙個狀態。

gru 是新一代的迴圈神經網路,與 lstm 非常相似。與 lstm 相比,gru 去除掉了細胞狀態,使用隱藏狀態來進行資訊的傳遞。它只包含兩個門:更新門和重置門。更新門的作用類似於 lstm 中的遺忘門和輸入門。它決定了要忘記哪些資訊以及哪些新資訊需要被新增;重置門用於決定遺忘先前資訊的程度。gru 的張量運算較少,因此它比 lstm 的訓練更快一下。很難去判定這兩者到底誰更好,研究人員通常會兩者都試一下,然後選擇最合適的。

對比了三個網路架構之後,我對rnn、lstm的思維導圖有清晰了點,但是疑問確布滿腦海:從rnn到lstm,作者是怎麼想到加入這幾個門控結構的?它們為什麼要這樣設計,這樣設計為什麼就對梯度消失有幫助呢?網上搜到參考文獻3,介紹了lstm演化之路,它的由解決梯度消失,到forget gate設計到peephole等的過程。我覺得可能也說明了科學的路上是逐漸進步的,不是一步到位的吧。我們都是站在巨人的肩膀上。

rnn,lstm,gru簡單**:

lstm(一) 演化之路

一步一步帶你用tensorflow玩轉lstm

RNN LSTM GRU的簡單介紹

rnn,中文 迴圈神經網路 解決的是時間序列問題。什麼是時間序列問題呢,就是我們的樣本資料之間在時間維度上存在關聯的,跟一般的神經網路不一樣,也就是說我們前乙個輸入和後乙個輸入有某種說不清道不明的關係,需要rnn這種特定結構的神經網路去尋找內部聯絡。下面是rnn的乙個基本結構和乙個官網結構,第乙個圖...

CDN網路架構

cdn網路架構主要由兩大部分,分為中心和邊緣兩部分,中心指cdn網管中心和dns重定向解析中心,負責全域性負載均衡,裝置系統安裝在管理中心機房,邊緣主要指異地節點,cdn分發的載體,主要由cache和負載均衡器等組成。當使用者訪問加入cdn服務的 時,網域名稱解析請求將最終交給全域性負載均衡dns進...

LTE 網路架構

高層次的網路架構,lte是由以下三個主要元件 演進分組核心網與分組資料網路諸如網際網路,專用企業網路或ip多 子系統在外界連通。系統不同部分之間的介面,uu,s1和sgi表示,如下所示 一張usim儲存使用者特定的資料非常相似的3g sim卡。這使使用者的 號碼,家庭網路身份和安全金鑰等資訊 演進u...