1.深度學習的那些大牛們
2.全連線網路 第4章
需要掌握的知識:
重點:ppt: week08神經網路入門.pdf 或 python神經網路程式設計高畫質版.pdf
前向傳播過程:
在神經網路中,資訊從上乙個神經元直接流轉到下乙個神經元,直到輸出,依據每乙個神經元的輸入並根據相應規則可以計算出輸出,最終得到在當前引數下的損失函式的過程,稱為前向傳播。反向傳播過程:
反向傳播演算法是在前向傳播演算法的基礎上,從神經網路的輸出層向輸入層依次計算損失函式對於各個引數的梯度,並在給定學習率下更新相關引數。利用前向傳播演算法和反向傳播演算法不斷更新損失函式的值和引數,直到損失函式下降到指定的閾值(或者最小值),即完成神經網路的訓練
教材p75-78
啟用函式
在神經元中,輸入的 inputs 通過加權,求和後,還被作用了乙個函式,這個函式就是啟用函式。引入啟用函式是為了增加神經網路模型的非線性。如果不用啟用函式,每一層輸出都是上層輸入的線性函式,無論神經網路有多少層,輸出都是輸入的線性組合,這種情況就是最原始的感知機(perceptron)。啟用函式給神經元引入了非線性因素,使得神經網路可以任意逼近任何非線性函式,這樣神經網路就可以應用到眾多的非線性模型中。可微性: 當優化方法是基於梯度的時候,這個性質是必須的。啟用函式的主要作用是提供網路的非線性建模能力。如果沒有啟用函式,那麼該網路僅能夠表達線性對映,此時即便有再多的隱藏層,其整個網路跟單層神經網路也是等價的。因此也可以認為,只有加入了啟用函式之後,深度神經網路才具備了分層的非線性對映學習能力。 那麼啟用函式應該具有什麼樣的性質呢?
單調性: 當啟用函式是單調的時候,單層網路能夠保證是凸函式。
輸出值的範圍: 當啟用函式輸出值是 有限 的時候,基於梯度的優化方法會更加 穩定,因為特徵的表示受有限權值的影響更顯著;當啟用函式的輸出是 無限 的時候,模型的訓練會更加高效,不過在這種情況小,一般需要更小的learning rate
relu啟用函式(the rectified linear unit),用於隱層神經元輸出。公式如下
損失函式
在神經網路中,衡量**網路與真實值y之間差別的指標成為損失函式;損失函式越小,表示神經網路的**結果越接近真實值
神經網路的調整就是調整權重w和偏置b使得損失函式值盡可能地小。神經網路解決的問題主要分為分類問題和回歸問題
分類是輸出變數為有限個離散變數的**問題,目的是尋找決策邊界。
回歸問題是輸入變數與輸出變數均為連續變數的**問題,目的是尋找最優的擬合方法。
分類損失包括
分類損失函式回歸類損失負對數似然損失
交叉熵損失
均方誤差學習率:梯度下降的步長平均絕對值誤差
均方對數誤差
huber損失
log—cosh損失函式
4.4 提公升神經網路訓練的技巧
4.4.1引數更新方法
sgd 1
隨機梯度下降
批量梯度下降(bgd)
momentum 2
動量使得梯度在方向不變的維度上速度變快,方向有所改變的維度上的更新速度變慢,這樣就可以加快收斂減小**
adagrad 4
自適應的演算法可以根據引數更新的頻率來調整他們更新的速度,對低頻的引數作較大的更新,對高頻的引數做較小的更新,適用於一些資料分布不均勻的任務,可以更好的平衡引數更新的量,提公升模型的能力rmsprop 6
rms中用於滑動平均的方法還解決adagrad中學習率急劇下降的問題,rmsprop希望梯度的積累項g按一定的比率衰減,因此使用乙個滑動視窗限制g。adam 7他的提出者hinton建議設定平衡因子為0.9,學習率為0.001
自適應矩陣估計結合了基於動量的優化方法與基於自適應學習率的優化方法,儲存了過去梯度的指數衰減平均值,將其作為動量與過去梯度的平方的指數的衰減平均值來構造學習率自適應因子4.4.2資料預處理
歸一化
提高深度學習演算法的效率三種常用的資料預處理方法
0均值:所有樣本減去總體資料的平均值,適用於各維度分布相同的資料4.4.4 正則化縮放:將不同維度差異較大的資料縮放到統一的尺度以利於模型處理
歸一化:各維度資料減去各維度的均值後除以各維度的標準差
正則化用於解決有些模型因強大的表徵能力而產生測試資料過擬合等現象,通過避免訓練資料完美擬合資料樣本的模型來加強演算法的泛化能力常見方法以及作用可以避免資料過擬合
1.資料增強
資料增強是提公升演算法效能滿足深度學習模型對大量資料需求的重要工具。過擬合可以認為是模型對資料集中雜訊和細節的過度捕捉,防止過擬合的最簡單有效的方法就是增大訓練資料量,標記成本的成本較高,因此資料增強通過向訓練資料新增轉換或擾動來人工增加訓練資料集。2.權重衰減
l1l1指一範數,長寫為絕對值和的形式
l2l2指二範數,長寫為平方和的形式
l1,l2正則化通過修改損失函式實現
3.dropout
指暫時丟棄一部分神經元及其連線,通過修改網路結構實現
dropout可以看作是多種神經網路的整合
4.提前停止
限制模型最小化代價函式所需要的訓練迭代次數
防止訓練中過擬合的模型泛化效能差
4.5深度學習框架
4.5.1
易用性4.5.2常見的深度學習框架高效性
飛漿:易學,易用,安全,高效4.5.3飛槳的概述tensorflow
caffe
kares
3.卷積神經網路-第5章
5.1什麼是卷積神經網路(yann lecun)
前饋神經網路是一種最簡單的神經網路,各神經元分層排列。每個神經元只與前一層的神經元相連。接收前一層的輸出,並輸出給下一層.各層間沒有反饋。是目前應用最廣泛、發展最迅速的人工神經網路之一。5.2卷積神經網路的整體結構
卷積層,池化層,全連線層卷積神經網路中輸入/輸出資料稱之為特徵圖
5.3卷積層
卷積層會對輸入的特徵圖進行卷積操作,輸出卷積後產生的特徵圖。卷積層是卷積神經網路的核心部分,卷積層的加入使得神經網路能夠共享權重,能夠進行區域性感知,並開始層次化的對影象進行抽象理解
掌握卷積的計算
給你輸入計算輸出大小
卷積 空洞卷積
5.4池化層
了解常見的池化層
最大池化
平均池化
5.7典型的卷積神經網路
包括網路背景,特點
lenet
alexnet
goolenet
vggresnet
4.迴圈神經網路-第6章
為什麼自然語音處理需要迴圈神經網路
rnn描繪rnn的基本結構,並說明特點
lstm
描繪lstm的基本結構,並說明特點
gru描繪gru的基本結構,並說明特點
seq2seq
描繪seq2seq的基本結構,並說明特點
attention
描繪attention的基本結構,並說明特點
transform 和 bert
自己選擇看
5.計算機視覺-第8章
計算機視覺的應用場景及其代表網路,及其網路特點
6.自然語言處理nlp-第9章
nlp的基本過程
p242-p253
nlp的應用場景
7.**實踐
python實現神經網路
中草藥識別
《動手學深度學習》 深度學習基礎複習
交叉熵只關心對正確類別的 概率,因為只要其值足夠大,就可以確保分類結果正確,而平方損失則過於嚴格,例如y i 1 y i 2 0比y i 1 0,y i 2 0.4的損失要小很多,雖然兩者都有同樣正確的分類 結果。正則化通過為模型損失函式新增懲罰項使學出的模型引數值較小,是應對過擬合的常用手段。權重...
深度學習識點複習 鞍點
討論尋找凸路徑時可能會遇到的臨界點。1 臨界點型別 為了最小化函式 當梯度等於0的時候,該點為臨界點,也就是區域性最優解,對於強凸函式,也就是全域性最小點。對於非凸函式,例如 為了區分這種情況,需要考慮二階導數,2 如何優化演算法避開鞍點 因為大多數自然目標函式都有指數級的鞍點。許多學習問題都可以被...
複習 深度優先搜尋
深度優先搜尋 dfs 是利用遞迴完成的以搜尋深度優先的搜尋 通常大概是這樣的 1 void search int vi 9 for int i i i 14 特點 1.記憶體消耗小 不像廣搜需要儲存節點數 2.題目的資料範圍較小 例如noip普及組某年的一道題 子矩陣 3.耗時較長 函式的呼叫和返回...