與神經網路的區別
傳統一般三層以內,深度可達上千層
傳統通常是全連線,深度形式多樣:共享權值,跨層的反饋等
目標函式
均方誤差----->交叉熵
交叉熵能在深度學習模型下快速提高精度
為了避免交叉熵出現0,使用softmax層來突出最大值並轉換成概率
激勵函式
sigmoid------->relu
當神經元一層層疊加之後,會不斷疊加激勵函式的導數和權重,導致梯度消失
relu能解決梯度消失問題,將有些輸出為0的神經元看作直線
改進的梯度下降
momentum:前幾次的梯度也會參與運算
nesterov momentum: 先對引數進行估計,然後使用估計後的引數來計算誤差
adagrad:應該為不同的引數設定不同的學習步長,梯度越小則學習步長越大,反之亦然
rmsprop:一種改進的adagrad,通過引入乙個衰減係數,讓r每回合都衰減一定比例,解決了adagrad過早結束的問題,適合處理非平穩目標,對於rnn效果很好
adam:adaptive moment estimation,自適應矩陣估計,利用梯度的一階矩估計和二階矩估計動態調整每個引數的學習率
總結:
如果資料是稀疏的,就用自適用方法,即adagrad,adadelta,rmsprop,adam,通常adam是最好的選擇
sgd缺點是演算法用的時間長,容易被困在鞍點,但是相對穩定
batch normalization:
對資料先進行預處理(標準化處理),cnn訓練絕大多數都採用基於mini-batch的隨機梯度下降演算法為基礎的演算法進行訓練操作是:在每次sgd時,通過mini-batch來對相應的activation做規範化造作,使得結果的均值為0,方差為1
避免過適應
過適應的根本原因:權重引數太多,而樣本量不足
通過早期停止訓練,權重衰減,dropout來避免過適應
早期停止訓練:
當目標函式在驗證集上不再減少時,訓練就應該停止了,不能一味追求訓練集的誤差減小
權重衰減:
刪除一些無用的權重
dropout:
每次更新引數前,按一定比例刪除部分神經元,是整合學習的一種
cnn基本元件:
cnn卷積層:
3d濾波器/卷積核:由機器自己學習出來得到的(權重)
卷積步長大於1,有降維的作用
cnn池化層:
作用:特徵融合,降維,無引數需要學習,通常使用最大池化
cnn-softmax層:
指數歸一化函式:將乙個實數值向量壓縮到(0,1),所有元素和為1,最後乙個全連線層對接1000-way的softmax層,得出1000類標籤的概率值,用於構建loss
池化層的誤差反向傳播
如果採用平均池化,就先複製還原成之前的大小,然後除以最大值則得到和原來一樣的殘差值
如果採用最大池化,需要記錄前向傳播過程中池化區域中最大值的位置,用0填充多餘的位置
卷積層的誤差反向傳播
將卷積核旋轉180°和池化後的矩陣相乘得到的矩陣就是殘差,若有多個卷積核,則需要把所有相乘後的矩陣相加得到殘差值
(計算機視覺)計算機視覺基礎
opencv cximage cimg freeimage opencv中vc庫的版本與visual studio版本的對應關係 vc8 2005 vc9 2008 vc10 2010 vc11 2012 vc12 2013 vc14 2015 vc15 2017 visual studio中的輔助...
計算機視覺與深度學習公司
深度學習是大資料下最熱門的趨勢之一。上乙個十年是網際網路的時代,下乙個十年將是人工智慧的時代。國內已經產生大量的人工智慧公司,分布在不同的領域。2016年是人工智慧的元年,2017年將迎來 人工智慧 的春天。未來幾年也是人工智慧在金融 醫療 教育等大資料行業以及感知互動領域全面滲透的時期,我們正迎來...
深度學習用於計算機視覺
密集連線層 精度97.8 卷積神經網路 99.3 兩者的區別在於 dense層從特徵空間學到的是全域性模式,而卷積層學到時是區域性模式 1 卷積神經網路學到的模式具有平移不變性 視覺世界根本上來說就具有平移不變性 即在影象右下角學到某個模式後可以在任何地方識別這個模式。對於密集連線網路來說如果出現在...