1、在調整超引數時,其中最終要的是
α α
,其次是動量
β β
、隱藏層單元以及mini-batch,之後還可以調整層數跟學習率衰減
2、在深度學習中,隨機選擇引數的值可能更好一些,因為事先並不知道哪個引數相對比較重要,另乙個比較重要的原則是從粗略到精細,到大體確定了超引數的範圍,再在這個範圍內進行隨機取值,獲得更加精細的引數
3、當確定了引數的範圍,對其進行隨機取值時使用對數軸比較合理,這樣可以均勻取到各個範圍的值
4、確定引數進行觀察時有兩種方式,一種是計算能力小,這就需要我們隨時觀察代價函式的下降進行調整引數,另一種是計算能力大,這時可以訓練引數取不同值的模型,然後同時訓練觀察好壞
此種演算法模擬的是將輸入歸一化可以加快訓練過程,此種演算法歸一化的是隱藏層的輸入特徵,通過計算每一層z的均值、方差,將其標準化:zn
orm=
z−μσ
2+ε√
z no
rm=z
−μσ2
+ε
,然而,隱藏層或許並不需要這樣的分布,所以利用等式z~
=γzn
orm+
β z~=
γzno
rm+β
重新構造,均值和方差可以是我們想要的任意值。這種方法起作用的原因是其內在的減弱了當前層對前一層的依賴,可以跟dropout演算法一起使用,這種演算法也有***,那就是是有輕微的正則作用。
這是乙個分類器,其實質是輸入乙個向量,輸出乙個同樣大小的向量,其中的值代表分類的概率。 t=
ez[l
] t=e
z[l]
y^=t∑ti
y ^=
t∑ti
深度學習 學習筆記三
1.回歸和分類都是有監督學習問題嘛?分類與回歸,這兩者都屬於監督學習的範疇,都是學習的方法。之所以會去兩個不同的名字,就是因為其對應的輸出值形式不同,僅此而已。對於回歸任務其輸出值是連續的實數值,而對於分類任務其輸出值為離散的類別數。因此這兩者的本質是一樣的,僅僅是輸出形式不同而已。當然由於其輸出形...
深度學習之三 RNN
rnn,也就是recurrent neural network,迴圈神經網路,是非線性動態系統,將序列對映到序列,主要引數有五個 whv,whh,woh,bh,bo,h0 典型的結構圖如下 解釋一下上圖 rnn的計算方式 之前看過了一般神經網路和cnn,再看rnn其實覺得結構並不複雜,計算過程看起來...
深度學習之三 RNN
rnn,也就是recurrent neural network,迴圈神經網路,是非線性動態系統,將序列對映到序列,主要引數有五個 whv,whh,woh,bh,bo,h0 典型的結構圖如下 解釋一下上圖 rnn的計算方式 之前看過了一般神經網路和cnn,再看rnn其實覺得結構並不複雜,計算過程看起來...