3x3 是最小的能夠捕獲畫素八鄰域資訊的尺寸。
兩個 3x3 的堆疊卷基層的有限感受野是 5x5 ;三個 3x3 的堆疊卷基層的感受野是7x7,故可以通過小尺寸卷積層的堆疊替代大尺寸卷積層,並且感受野大小不變。
多個 3x3 的卷基層比乙個大尺寸 filter卷基層有更多的非線性(更多層的非線性函式),使得判決函式更加具有判決性。(we incorporate three non-linearrectification layers instead of a single one, which makes the decision function more discriminative)
多個 3x3的卷積層比乙個大尺寸的 filter 有更少的引數,假設卷基層的輸入和輸出的特徵圖大小相同為 c,那麼三個 3x3 的卷積層引數個數 3x(3x3xcxc)=27c ^2;乙個7x7的卷積層引數為49c ^2;所以可以把三個3x3的filter看成是乙個7x7 filter的分解。
2個3x3的感受野為什麼等效於1個5*5?caffe im2col原始碼解析例:網路輸入28x28
3x3的核
第一層3x3卷積:(28-3)/1+1=26
第二層3x3卷積:(26-3)/1+1=24
5x5的核
第一層5x5卷積:(28-5)/1+1=24
兩層卷積層:stride*(kernel_size-1)+kernel_size(1)選擇合適的損失函式兩層55的卷積核,步長為2,感受野多大?
2(5-1)+5 = 13
兩層33的卷積核,步長為1,感受野多大?
1(3-1)+3 = 5
神經網路的損失函式是非凸的,有多個區域性最低點,目標是找到乙個可用的最低點。非凸函式是凸凹不平的,但是不同的損失函式凸凹起伏的程度不同,例如下述的平方損失和交叉熵損失,後者起伏更大,且後者更容易找到乙個可用的最低點,從而達到優化的目的。
square error(平方損失)
cross entropy(交叉熵損失)
(2)選擇合適的mini-batch size
採用合適的mini-batch 進行學習,一方面可以減少計算量,一方面有助於跳出區域性最優點。batch取太大會陷入區域性最小值,batch取太小會抖動厲害,選擇合適的batch size 很重要。
(3)選擇合適的啟用函式
參考部落格1:
參考部落格2:
(1)densenet和resnet的對比
參考文章1:
參考部落格:
參考部落格1:
參考部落格2:
參考部落格3:
機器學習100問
機器學習100問 一共分為三部分,分別是上篇,中篇,下篇。每一篇列出最常見的機器學習基礎概念問題。擬打算在除夕前,出乙個 機器學習100答 針對這三篇列出的問題,一一作出簡要的回答。注 如果只列出名詞,則問題是 它的定義,推導與應用是什麼?感知機 k近鄰法 樸素貝葉斯 決策樹 邏輯斯蒂回歸 svm ...
深度學習500問
近年來,深度學習在語音 影象 自然語言處理等領域都取得了非常不錯的成果,自然而然地成為技術人員爭相學習的熱點。為了幫助正在學習深度學習的夥伴們,川大的一名優秀畢業生,在github上建立了乙個專案 深度學習500問 通過問答的形式對常用的概率知識 線性代數 機器學習 深度學習 計算機視覺等熱點問題進...
深度學習面試100題
深度學習面試100題 第1 5題 經典常考點cnn 深度學習面試100題 第6 10題 深度學習面試100題 第11 15題 深度學習面試100題 第16 20題 深度學習面試100題 第21 25題 深度學習面試100題 第26 30題 深度學習面試100題 第31 35題 深度學習面試100題 ...