神經網路架構整理

2021-10-01 18:12:58 字數 2521 閱讀 6916

新的神經網路架構隨時隨地都在出現,dcign,iilstm,dcgan~

神經網路通常都有很多層,包括輸入層、隱藏層、輸出層。單獨一層不會有連線,一般相鄰的兩層是全部相連的(每一層的每個神經元都與另一層的每個神經元相連)。

1. 前向傳播網路(ff 或 ffnn)

它們從前往後傳輸資訊(分別是輸入和輸出)。神經網路通常都有很多層,包括輸入層、隱藏層、輸出層。單獨一層不會有連線,一般相鄰的兩層是全部相連的(每一層的每個神經元都與另一層的每個神經元相連)。最簡單,從某種意義上說也是最實用的網路結構,有兩個輸入單元,乙個輸出單元,可以用來為邏輯關口建模。ffnn 通常用反向傳播演算法訓練,因為網路會將「進來的」和「我們希望出來的」兩個資料集配對。這也被稱為監督學習,相對的是無監督學習,在無監督學習的情況下,我們只負責輸入,由網路自己負責輸出。由反向傳播演算法得出的誤差通常是在輸入和輸出之間差別的變化(比如 mse 或線性差)。由於網路有足夠多的隱藏層,從理論上說對輸入和輸出建模總是可能的。實際上,它們的使用範圍非常有限,但正向傳播網路與其他網路結合在一起會形成十分強大的網路。

2. 徑向基函式(rbf)網路

是以徑向基函式作為啟用函式的 ffnn。rbf 就是這樣簡單。但是,這並不說它們沒有用,只是用其他函式作為啟用函式的 ffnn 一般沒有自己單獨的名字。要有自己的名字,得遇上好時機才行。

3. hopfied 網路(hn)

所有的神經元都與另外的神經元相連;每個節點功能都一樣。在訓練前,每個節點都是輸入;在訓練時,每個節點都隱藏;在訓練後,每個節點都是輸出。訓練 hn 的方法是將每個神經元的值設定為理想的模式,然後計算權重。這之後權重不會發生改變。一旦接收了訓練,網路總會變成之前被訓練成的模式,因為整個網路只有在這些狀態下才能達到穩定。需要注意的是,hn 不會總是與理想的狀態保持一致。網路穩定的部分原因在於總的「能量」或「溫度」在訓練過程中逐漸縮小。每個神經元都有乙個被啟用的閾值,隨溫度發生變化,一旦超過輸入的總合,就會導致神經元變成兩個狀態中的乙個(通常是 -1 或 1,有時候是 0 或 1)。更新網路可以同步進行,也可以依次輪流進行,後者更為常見。當輪流更新網路時,乙個公平的隨機序列會被生成,每個單元會按照規定的次序進行更新。因此,當每個單元都經過更新而且不再發生變化時,你就能判斷出網路是穩定的(不再收斂)。這些網路也被稱為聯儲存器,因為它們會收斂到與輸入最相似的狀態;當人類看到半張桌子的時候,我們會想象出桌子的另一半,如果輸入一半噪音、一半桌子,hn 將收斂成一張桌子。

4. 馬爾科夫鏈(mc 或離散時間馬爾科夫鏈,dtmc)

是 bm 和 hn 的前身。可以這樣理解 dtmc:從我現在這個節點出發,達到相鄰節點的機率有多大?它們是沒有記憶的,也即你的每乙個狀態都完全取決於之前的狀態。雖然 dtmc 不是乙個真正的神經網路,他們卻有與神經網路相似的性質,也構成了 bm 和 hn 的理論基礎。

5. 玻爾茲曼機(bm)

和 hn 十分相似,但有些神經元被標記為輸入神經元,其他的神經元繼續保持「隱藏」。輸入神經元在網路整體更新後會成為輸入神經元。一開始權重是隨機的,通過反向傳播演算法,或者通過最近出現的對比散度(用馬爾科夫鏈決定兩個獲得資訊之間的梯度)。相較於 hn,bm 的神經元有時候會呈現二元啟用模式,但另一些時候則是隨機的。bm 的訓練和執行過程與 hn 十分相似:將輸入神經元設定為固定值,然後任網路自己變化。反覆在輸入神經元和隱藏神經元之間來回走動,最終網路會在溫度恰當時達到平衡。

6.自編碼器(ae)

跟 ffnn 有些類似,它只是 ffnn 的一種不同的用法,稱不上是從本質上與 ffnn 不同的另一種網路。ae 的外**起來像沙漏,輸入和輸出比隱藏層大。ae 也沿中間層兩邊對稱。最小的層總是在中間,這裡也是資訊壓縮得最密集的地方。從開始到中間被稱為編碼部分,中間到最後被稱為解碼部分,中間(意外吧)被稱為**。你可以使用反向傳播演算法訓練 ae。ae 兩邊是對稱的,因此編碼權重和解碼權重也是相等的。

神經網路架構整理

新的神經網路架構隨時隨地都在出現,dcign,iilstm,dcgan 神經網路通常都有很多層,包括輸入層 隱藏層 輸出層。單獨一層不會有連線,一般相鄰的兩層是全部相連的 每一層的每個神經元都與另一層的每個神經元相連 1.前向傳播網路 ff 或 ffnn 它們從前往後傳輸資訊 分別是輸入和輸出 神經...

遞迴神經網路問題整理

lstm只能避免rnn的梯度消失 gradient vanishing 梯度膨脹 gradient explosion 不是個嚴重的問題,一般靠裁剪後的優化演算法即可解決,比如gradient clipping 如果梯度的範數大於某個給定值,將梯度同比收縮 下面簡單說說lstm如何避免梯度消失.rn...

2 17 神經網路架構搜尋

神經網路結構搜尋 neural architecture search 主要由搜尋空間,搜尋策略與效能評估3部分組成。在搜尋空間設計上,出於計算量的考慮,通常不會搜尋整個網路結構,而是先將網路分成幾塊,然後搜尋塊中的結構。根據實際情況的不同,可以共享不同塊中的結構,也可以對每個塊單獨搜尋不同的結構。...