5.2 感知機與多層網路
5.3 誤差逆傳播演算法
5.4 全域性最小與區域性極小
5.5 深度學習$$\operatorname ( x ) = \left\ & \\ & \end \right.$$
階躍函式具有【不連續不光滑等】不太好的性質,因此實際常用sigmoid函式作為啟用函式。感知機(perceptron)由【兩層神經元】組成,【輸入層】接受外界輸入訊號後傳遞給輸出層,【輸出層】是m-p神經元(也稱:閾值邏輯單元(threshold logic unit)),為【二類分類的線性分類模型】(啟用函式為階躍函式)。
感知機【只有輸出層神經元進行啟用函式處理】,即只擁有一層功能神經元,其學習能力非常有限,只能處理【線性可分】的問題。對於訓練樣本(x,y),當該樣本進入感知機學習後,會產生乙個對應的輸出值_$\hat _$,【若真實輸出值y與其不一致,則感知機會對權重進行調整】,若啟用函式為階躍函式,則調整方法為(基於梯度下降)可以看出感知機是通過【逐個樣本輸入來更新權重】:設定好權重(一般為隨機),逐個地輸入樣本資料,若輸出值與真實標記一致則繼續輸入下乙個樣本,否則更新權重,再開始重新逐個檢驗,直到所有的樣本的輸出值與真實標記一致。【就是反向傳播】:誤差逆傳播(error backpropagation,簡稱bp)【以多組不同的引數值初始化多個神經網路】,按標準方法訓練後,取其中誤差最小的解作為最終引數。注:【相當於從多個不同的初始點開始搜尋】,這樣可能陷入多個不同的區域性極小,從中進行選擇有可能得到更接近全域性最小的解。
【使用模擬退火(simulated annealing)】技術。
【遺傳演算法】也經常用來訓練神經網路以更好地逼近全域性最小。【「早停(early stopping)」】:將資料分成訓練集和驗證集,訓練集用來計算梯度,更新連線權和閾值,驗證集用來估計誤差。若出現上文所述的過擬合現象,則停止訓練,同時返回具有最小驗證集誤差的連線權和閾值。
【「正則化(regularization)」】:在誤差目標函式中增加乙個用於描述網路複雜度的部分,例如連線權和閾值的平方和。因為增加隱層數不僅增加了擁有啟用函式的神經元數目,【還增加了啟用函式巢狀的層數】。預訓練全部完成後,再對整個網路進行【微調(fine-tuning)】訓練對每組【先找到區域性看起來比較好的設定】,然後再基於這些區域性較優的結果聯合起來進行全域性尋優。
這樣就在利用模型大量引數所提供的自由度的同時,有效地【節省了訓練開銷】。
還有一種節省訓練開銷的策略是【權共享(weight sharing)】,即【讓一組神經元使用相同的連線權】。這種策略在卷積神經網路(cnn)中發揮了重要作用。**或參考:西瓜書讀書筆記——第五章:神經網路
201119西瓜書系列部落格 1 緒論
要善於憑藉,這樣萬利無害通常假設樣本空間中全體樣本服從某個未知分布,我們獲得的每個樣本都是獨立地從這個分布上取樣獲得的 即 獨立同分布 一般而言 訓練樣本越多 得到關於該未知分布的資訊越多 越可能獲得具有強泛化能力的模型 歸納 特殊 一般的 泛化 generalization 過程 從具體事實歸結出...
201119西瓜書系列部落格 9 聚類任務
9.1 聚類任務 9.2 效能度量 9.3 距離計算 9.4 原型聚類 以原型方式聚類 9.5 密度聚類 以密度方式聚類 9.6 層次聚類 以層次方式聚類聚類試圖將資料集中的 樣本劃分為若干個通常是不相交的子集 每個子集稱為乙個簇 cluster 但需注意的是,聚類過程僅能自動形成簇結構,簇所對應的...
201119西瓜書系列部落格 13 半監督學習
主動學習仍需互動 顯然,主動學習需要與外界進行互動 查詢 打標,其本質上仍然屬於一種監督學習。無標記資料其實大有裨益 事實上,無標記樣本雖未包含標記資訊,但它們與有標記樣本一樣都是 從總體中獨立同分布取樣得到 因此它們所包含的資料分布資訊對學習器的訓練大有裨益。自動利用未標記樣本便是半監督學習 讓學...