bp演算法的方面掀起了基於統計模型的機器學習熱潮,那時候人工神經網路被叫做「多層感知機」
可以擺脫早期離散傳輸函式的束縛,使用sigmoid或tanh等連續函式模擬神經元對激勵的響應,在訓練演算法上則使用werbos發明的反向傳播bp演算法。對,這貨就是我們現在所說的神經網路nn。多層感知機給我們帶來的啟示是,神經網路的層數直接決定了它對現實的刻畫能力——利用每層更少的神經元擬合更加複雜的函式。
1)隨著神經網路層數的加深,優化函式越來越容易陷入區域性最優解,並且這個「陷阱」越來越偏離真正的全域性最優。利用有限資料訓練的深層網路,效能還不如較淺層網路。
解決:預訓練方法緩解了區域性最優解問題,將隱含層推動到了7層,由此揭開了深度學習的熱潮。
2)另乙個不可忽略的問題是隨著網路層數增加,「梯度消失」現象更加嚴重。具體來說,我們常常使用sigmoid作為神經元的輸入輸出函式。對於幅度為1的訊號,在bp反向傳播梯度時,每傳遞一層,梯度衰減為原來的0.25。層數一多,梯度指數衰減後低層基本上接受不到有效的訓練訊號。
解決:為了克服梯度消失,relu、maxout等傳輸函式代替了sigmoid,形成了如今dnn的基本形式。值得一提的是,今年出現的高速公路網路(highway network)和深度殘差學習(deep residual learning)進一步避免了梯度消失,網路層數達到了前所未有的一百多層。
經典的多層感知機(multi-layer perceptron)形式上是全連線(fully-connected)的鄰接網路(adjacent network)。
最大的區別是local receptive fields。
全連線的多層感知機中,輸入視為(或者需轉化為)乙個列向量。而在卷積神經網路中,以手寫字元識別為例,輸入不再 reshape 為 (28*28, 1) 的列向量,而是作為 28×28 的畫素灰度矩陣。
「深度學習」和「多層神經網路」的區別
從廣義上說深度學習的網路結構也是多層神經網路的一種。傳統意義上的多層神經網路是只有輸入層 隱藏層 輸出層。其中隱藏層的層數根據需要而定,沒有明確的理論推導來說明到底多少層合適。而深度學習中最著名的卷積神經網路cnn,在原來多層神經網路的基礎上,加入了特徵學習部分,這部分是模仿人腦對訊號處理上的分級的...
深度學習 1 4 搭建多層神經網路模型
目的 搭建隱藏層多於2層的神經網路 準備 1.匯入相關包 import x 搭建神經網路 1.初始化引數 搭建二層神經網路模型架構 linear relu linear sigmoid def initialize parameters n x,n h,n y w1 np.random.randn ...
計算機網路學習筆記之《不同網路的連線》
閘道器 不同網段的網路通訊通過閘道器,閘道器既可以用於 廣域網互連,也可以用於 區域網互連。閘道器是一種充當轉換重任的 計算機系統 或裝置。使用在不同的 通訊協議 資料格式或語言,甚至 體系結構 完全不同的兩種系統之間,閘道器是乙個翻譯器。與 網橋只是簡單地傳達資訊不同,閘道器對收到的資訊要重新打包...