深層神經網路 吳恩達神經網路和深度學習學習筆記

2021-10-05 14:10:11 字數 1381 閱讀 8473

l2正則化又被稱作權重衰減,因為相當於在為正則化的基礎上將之前的

正則化為啥能降低過擬合?

正則化會使一部分引數接近於0,相當於降低了一些隱藏層單元的影響,相對是模型變得簡單

因為神經網路使用了非線性啟用函式,但是當w比較小時,z通常也會比較小,對有些啟用函式來說會相對集中在近線性區,例如tanh中紅線部分,會使模型相對簡單。

droup out 可以隨機刪除上鏡網路中的單元,使得每次迭代只是用到了網路的一部分,我們不願意把賭注都放在乙個節點上,即不願意給任意乙個輸入加入過多權重(這邊通過可能被隨機刪除實現),droup out將產生收縮權重的平方範數的效果,若覺得某層更容易過擬合,可與將對應層的keep_prob設定的小一點。droup out一大缺點就是損失函式j不能被明確定義,每次迭代都會隨機移除一些節點,這導致我們無法check是否每一次都在朝梯度減小的方向執行,若想要debug,可以關掉droup out。上圖以第3層舉例,這邊我們需要注意,為了盡量不影響到第四層的計算,我們期望第3層的輸出期望不變,故在進行隨機失活後,我們會將第三層的輸出除以keep_prob,這邊keep_prob表示被保留的概率,keep_prob=1表示保留所有單元,即不做droup out。

資料增廣

early stopping:因為權重引數通常是隨機初始化的比較小的資料,隨著迭代的進行,權重引數可能慢慢變大,及早停止,可能有部分權重引數還比較小

資料歸一化,同傳統機器學習一樣,方便執行梯度下降

梯度消失/**

產生原因:

下圖舉了乙個?,深度神經網路,啟用函式使用恒等函式,權重矩陣相同,權重引數是這些層的所有的權重矩陣的乘積,相當於指數級別的增長,若引數大於1,則很容易變得很大,若小於1,則很容易變得很小。

再舉乙個例子,假設前一層單元很多,則該層輸入很多,累加值有可能比較大,為了防止值過大或過小,單元數n越大,我們希望權重引數越小,這樣累加值才小。所以在權重引數初始化的時候,我們可以在隨機初始化的基礎上除以輸入特徵規模相關。

吳恩達《卷積神經網路》

一 yolo algorithm 把輸入的分割成3x3個格仔或19x19個格仔,每個格仔進行檢測輸出八個特徵,3x3就輸出3x3x8個向量。yolo演算法的優點是不需要乙個演算法跑很多次。相反這是單次卷積實現,在處理計算時很多步驟都是共享的,而且執行速度非常快可以達到實時識別。物件中點的座標在哪個格...

吳恩達 卷積神經網路

卷積神經網路 卷積操作 設輸入n,filter為f,padding為p,步長 stride 為s 則卷積 不滿足結合律,滿足結合律還需要對filter進行水平和垂直翻轉 之後影象大小為 n 2p f s 1 向下取整 rgb影象卷積操作 同時相乘相加,三個channel輸出乙個值 為什麼cnn可以避...

吳恩達 卷積神經網路

1 灰度影象,邊緣檢測,使用核函式的缺點,影象的向量會不斷的縮小,另外乙個就是邊緣的向量相比於中間的向量被覆蓋的次數會少很多。解決這個的方法就是padding在影象的周圍再新增一圈向量。2 核函式通常是奇數維向量 3 卷積層,池化層 選出某一區域的最大值,另外還有 平均池化,就是求乙個小區域的均值 ...