門結構簡介

2021-09-11 22:53:01 字數 1082 閱讀 3074

因為梯度消失的問題[pascanu et al. , 2012],s-rnn很難有效地訓練。誤差訊號(梯度)在反向傳播過程中到達序列的後面部分時迅速減少,以至於無法到達先前的輸入訊號的位置,這導致s-rnn難以捕捉到長距離依賴資訊。因此,lstm[hochreiter and schmidhuber, 1997]和gru[chp et. , 2014b]等基於門的結構被設計出來,用於解決這一問題。

考慮將rnn視為乙個通用的計算工具,其中的狀態si代表乙個有限的記憶。每一種r函式的實現都會讀入乙個輸入xi+1以及當前的記憶si,對它們進行某種操作,並將結果寫入記憶得到新的記憶狀態si+1。從這種方式看來,s-rnn的乙個明顯的問題在於記憶的獲取是不受控制的。在每一步的計算過程中,整個記憶狀態都被讀入,並且整個記憶狀態也被改寫。

那麼如何提供一種更加受控的記憶讀寫方式?考慮乙個二進位制的向量g,這樣的乙個向量使用hadamard乘積操作,能夠作為乙個控制n維向量讀寫的門。考慮乙個記憶s、輸入x和門g,運算中,「讀入」x中被g中為1的值選中的那些入口,並將它們寫入新的記憶s』中。然後那些沒有被讀入的位置通過使用門(1-g)從記憶s中複製到新記憶s』中。

上述的門機制可以作為構建新rnn的基本模組:門向量能夠控制記憶狀態si讀寫。然而,我們仍然缺少了兩個重要的(並且是相關的)元件:門不應該是靜態的,而應該是由當前的記憶狀態和輸入共同控制,並且應該從輸入狀態和記憶中進行學習。這導致了乙個問題,因為我們結構中的學習過程需要函式可微(由於誤差反向傳播演算法),而門中使用的二值0-1方式不是可微的。

對於上述問題的一種解決方法就是使用一種軟但是可微的門機制代替原來的硬性門機制。為了實現可微的門,我們不在限制g屬於0-1,而是允許使用任意實數值,即g屬於rn,這個實數值隨後通過乙個sigmoid函式。這一操作將數值限定在了(0,1)區間內,並且大多數值都在接近邊界的位置。當使用門sigmoid(g』)hadamard乘積x的時候,經過sigmoid(g』)後x中那些數值接近1的下標被允許通過,而接近0的那些下標則被阻擋。門的取值可以通過輸入和目前的記憶來決定,並且能夠通過使用基於梯度下降的方式來訓練乙個效能令人滿意的網路。

受控的門機制是下面將要定義的lstm和gru的結構的基礎:在每個時間片上,可微的門機制決定哪一部分記憶會被寫入,以及哪一部分會被覆蓋(忘記)。

「偷菜門」事件簡介

偷菜門事件簡介 2009年11月初,一則題為 南京兒童醫院醫生上班忙 偷菜 害死五個月嬰兒!的帖子在網上引起關注。帖子稱,2009年11月3日,乙個5個月大的孩子患眼眶蜂窩組織炎在南京市兒童醫院住院期間病情惡化,晚上幾次向值班醫生毛曉珺求救,卻因醫生 要睡覺 甚至在網上玩遊戲 偷菜 而延誤了搶救時機...

「偷菜門」事件簡介

偷菜門事件簡介 2009年11月初,一則題為 南京兒童醫院醫生上班忙 偷菜 害死五個月嬰兒!的帖子在網上引起關注。帖子稱,2009年11月3日,乙個5個月大的孩子患眼眶蜂窩組織炎在南京市兒童醫院住院期間病情惡化,晚上幾次向值班醫生毛曉珺求救,卻因醫生 要睡覺 甚至在網上玩遊戲 偷菜 而延誤了搶救時機...

Boot Sector 結構簡介

boot sector 結構簡介 1.boot sector 的組成 boot sector 也就是硬碟的第乙個扇區,它由 mbr master boot record dpt disk partition table 和 boot record id 三部分組成。mbr 又稱作主引導記錄占用 bo...