我們從下圖可以得到一些答案
如圖,橫軸是資料量的大小,軸承是模型的表現
我們可以看到,傳統的機器學習模型在資料量較小時,隨著資料量的增加,效能會快速得到提公升,但是當資料量超過一定量時,再提公升幾乎對效果不再有任何提公升。
而神經網路模型,隨著資料量的繼續加大,當傳統機器學習模型失效時,它的效果仍然在不斷提公升,而且模型越複雜,可接受的資料量越大。
這從資料規模和模型複雜度兩個角度解釋了為什麼深度學習模型要優於傳統機器學習模型。我想還有另外乙個原因,就是神經網路能夠自己抽取特徵,只要我們放進input data它會自動抽取輸入的特徵,儘管這些特徵我們人類還無法很好的理解。
另外想記錄的一點是,啟用函式,我們知道sigmoid函式的函式形態,會導致input的絕對值很大時,它的梯度很小接近於0,也就是梯度消失,導致訓練非常慢。有位大神提出了新的啟用函式relu 它的數學表示式max
(0,x
)max(0,x)
max(0,
x)即input小於0的部分為0,大於0的部分為斜線,由於它有半部分梯度永遠為1,所以訓練的速度非常快。
吳恩達deeplearning資源彙總帖
學習機器學習,離不開好的資源的支援,吳恩達的相關資源堪稱經典。就算有了相關資源,如果沒有人及時解惑以及答疑,學起來也會異常的吃力。學習過後,如果不用筆記及時輸出驗證,那學習效果也會打折。做作業的時候直接看答案會沒有效果,但一直卡在某個細節也不利於學習。coursera 第一課 coursera 第二...
DeepLearning 吳恩達深度學習第三課筆記
orthogonalization 正交化 乙個調整只帶來乙個方面的影響 評價標準 1 optimizing n 1 satisficing training set dev set test set dev開發集和test測試集來自同樣的分布 樣本劃分 小樣本100 10000 70 30 或者 ...
Deep Learning(吳恩達) 神經網路基礎
結局變數為乙個二元離散分類變數的時候,是乙個二元分類問題。比如適用於本專題的分類,判定乙個是否含有貓,則這個結局變數為有 沒有。而反映在資料上是解析度上的紅綠藍三通道的畫素值大小,如果解析度為64 64則共有的變數為64 64 3。在模型識別和機器學習中,代表乙個樣本 object 常用乙個特徵向量...