深度學習課堂筆記 5 14

2021-10-06 03:18:15 字數 1681 閱讀 2282

(1)引數過多,訓練難度大

(2)非凸優化問題,區域性最優影響迭代

(3)梯度消失or**

(4)引數解釋困難

(5)過擬合or欠擬合

梯度消失or**產生的原因:

(1)bp法先天問題

(2)初始權重帶來的影響

(3)啟用函式選擇不當

(4)梯度流動帶來的影響:網路結構本身的問題,如cnn

(5)損失值過大帶來的影響:資料集的問題,如標註不准等

一:bp法是連乘,容易出現過大或者過小

二:權重初始化不當造成梯度消失或者**

三:sigmoid和tan函式梯度消失問題嚴重,最常使用relu,偶爾使用leakyrelu

四:網路結構的問題:設定剪下閾值or更好的網路結構(rnn-lstm)

五:訓練集中存在大量雜訊

怎麼解決梯度消失or**?

1、權重預訓練+微調

2、我不用bp了!!膠囊網路

目的:防止過擬合

方法1:增加約束

方法2:干擾優化過程

引數的範數懲罰:l0正則化:模型中非零引數的個數

l1正則化:lasso,用於選擇特徵(使權重稀疏)

l2正則化:嶺回歸,防止權重過大

資料增強:增加訓練集,如圖象的旋轉、縮放,語音隨機新增雜訊,自然語言處理中近義詞替換,神經網路中新增雜訊

整合方法:平均輸出

dropout:丟棄一部分神經元

其他方法:多工學習;半監督學習;對抗訓練

1、經驗風險最小化代替期望風險

最小化訓練集上的誤差代替真實的分布

2、**損失函式代替損失函式

如新增了正則化的損失函式

沒有導數的損失函式進行一些變化,如交叉熵函式

3、批量演算法/小批量演算法

深度學習常採用小批量的優化方式

1、hessian病態矩陣

條件數很大的非奇異矩陣

微小的資料變化導致結果巨大變化

梯度下降緩慢或者無法下降

2、區域性極小點

高維空間鞍點多,低維空間極值點多

3、鞍點、高原和其他平坦區域

鞍點附近的梯度非常小,梯度下降可能逃離鞍點,牛頓法可能跳進鞍點

恆值的、寬且平坦的區域,梯度和hessian矩陣都是零

6、近似問題

7、區域性和全域性結構間的弱對應

即使在區域性解決了所有困難,全域性也不一定好

大多數優化的難點在於訓練中是否達到了全域性最小點、區域性最小點或者鞍點,但是在實踐中,神經網路可能哪個點都達不到

8、優化理論的限制

理論上很難解決的問題,由於加深層數可能很簡單就解決了

使用全部的樣本求解梯度的累積

每次隨機選擇乙個乙個樣本

更新速度大大加快

缺點:1、準確度下降 2、可能收斂於區域性最優 3、不易於並行實現

隨機選擇一批樣本

(注意:有些書上sgd就是指小批量,不同的人叫法不一樣,要清楚本質)

深度學習課堂筆記 5 21

特點 採用了relu啟用函式 2 反向傳播計算容易 3 不容易出現梯度發散問題 4 很多隱層輸出為0,使得網路稀疏 5 某些節點壞死,始終輸出為0 因為輸出為0的節點沒法更新權重 6 容易改變資料的分布 可以使用bn來緩解 dropout技術 有選擇地忽視某些神經元,起到稀疏的作用 最大池化技術 m...

5 14學習筆記(python基礎教程)

p119 self引數正是方法和函式的區別。方法 更專業一點可以成為繫結方法 將它們的第乙個引數繫結到所屬的例項上,因此無需顯式提供該引數。當然也可將特性繫結到乙個普通函式上,這樣就不會有特殊的self引數了。讓方法變成私有 在名字前面加上雙下劃線 class secretive def inacc...

java學習,課堂筆記 4 30

定義方法結構 修飾符 訪問修飾符以及非訪問修飾符 返回值型別 方法名 引數列表 引數型別 引數名 類 既包括資料,又包括作用於資料的一組操作的封裝體。物件 是類的例項。注 1 靜態方法裡只能訪問靜態變數,不能訪問例項變數。2 非訪問修飾符 static 全域性的,靜態的。修飾屬性和方法,不能修飾構造...