2015-2
摘要最近,全連線神經網路和卷積神經網路在語音識別、影象分類、自然語言處理和生物資訊學等廣泛地任務中實現了最先進的效能。對於分類任務,這些深度學習模型大多採用softmax啟用函式進行**,最小化交叉熵損失。在本文中,我們展示了用線性支援向量機替換softmax層的乙個小而一致的優勢。學習基於邊際損失最小化而不是交叉熵損失最小化。雖然在現有技術中已有多種神經網路和和支援向量機的組合,但我們使用l2支援向量機的結果顯示,在流行的深度學習資料集mnist.,cifar-10和icml2013面部表情識別挑戰方面取得了顯著的進展。
使用神經網路的深度學習在很多任務中都有最先進的表現。
…在分類任務中,支援向量機是乙個廣泛替代softmax的替代品。
特別是,深度卷積網路首先使用監督\非監督目標進行訓練,以學習良好的不變隱式表示。將資料樣本中相應的隱藏變數作為輸入,餵入到線性支援向量機中或核心中。
…**在這篇文章中,我們展示了對於一些深度架構,線性支援向量機頂層替代softmax是有益的。**我們對支援向量機的原始問題進行了優化,可以對梯度進行反向傳播來學習較低層次的特徵。
本文用l2-svm代替合頁損失函式。與標準支援向量機的合頁損失不同,l2支援向量機的合頁損失是可微分的,並且嚴重懲罰錯誤。原始l2支援向量機目標是在svms發明的前3年提出的。
與使用softmax作為頂層的網路相比,我們在mnist. cifar-10以及最近 kaggle的一項面部表情識別比賽上展示了優越的效能。對小批量隨機梯度下降法進行了優化。通過比較3.4節中的兩個模型,我們認為效能的提高主要是由於svm損失函式具有較好的正則化效果,而不是引數優化的優勢。
在本文中,我們利用l2支援向量機的目標訓練深度神經網路進行分類。較低的層權值是通過從頂層svm反向傳播梯度來學習的。為了做到這一點,我們需要區分svm目標與啟用的倒數第二層。從這一點來看,反向傳播演算法與頂層使用softmax標準深度學習網路是完全相同的。我們發現l2-svm在大多數情況下比l1-svm稍好,我們將在實驗部分使用l2-svm。
比賽本身是在kaggle上舉辦的,在最初的發展階段有超過120支參賽隊伍。
這些資料報括28,709張48×48的7種不同型別的表情。示例及其對應的表情標籤如圖1所示。驗證集和測試集由3589幅影象組成,這是乙個分類任務。
我們提交了獲勝的解決方案,公共驗證分數為69.4%,相應的私人測試分數為71.2%。我們的私人測試分數比第二名高出了2%。由於標籤雜訊和其他因素例如資料崩潰的影響,據估計,人的平均表現在65%-68%。
我們比較了softmax與使用dlsvm進行深度學習的效能。這兩個模型都使用了8分割/摺疊交叉驗證進行測試,其中包含乙個映象層、相似轉換層、兩個卷積濾波器和乙個池化層。然後是乙個包含3072個節點全連線層。隱藏層都是矯正過的線性型別。其他超引數如權重衰減,是通過交叉驗證得到的。
我們還可以將softmax與l2-svms的驗證曲線看作權重更新的函式,如圖2.
由於在訓練的後半部分學習率降低,dlsvm保持了乙個小而清晰地效能增益。
我們還繪製了兩種模型的第一層卷積濾波器:
雖然通過觀察這些過濾器並不能獲得多少好處,但svm訓練的卷積層似乎有更多的紋理過濾器。
……我們使用乙個簡單的全連線模型,首先執行pca從784維降到70維。每層512個單元的兩個隱藏層後面是softmax或l2svm。然後將資料分成300個小批次,每個批次200個樣品。我們使用帶有動量的隨機梯度下降法對著300個小批次進行了總共400代訓練,共有120000引數更新。學習速率從0.1線性衰減到0.0,softmax層上的l2權重代價設定成0.001。為了防止過擬合和臨界狀態的產生,在輸入端加入了大量的高斯雜訊。加入標準差為1.0(線性衰減為0)的雜訊。我們的學習演算法是置換不變的,不帶任何無監督的預訓練,得到這些結果:softmax 0.99% dlsvm:0.87%
對於上面的學習設定,mnist上0.87%的錯誤可能(在此時)是最先進的。softmax和dlsvm之間的唯一區別是最後一層。這個實驗主要是證明最後乙個線性svm相對於softmax的有效性,我們還沒有窮盡地探索其他常用的技巧,例如dropout,權值不變、隱藏單元稀疏、增加更多的隱藏層、增加圖層大小等。
加拿大高等研究院10資料集是乙個10類物件資料集,包含5萬張用於訓練的影象和1萬張用於測試的影象。彩色影象是32×32解析度。我們訓練了乙個卷積神經網路,它是兩個池化層和濾波器交替的神經網路。
兩種模型的卷積網路部分都是相當標準的,第乙個卷積層有3255個濾波器,帶有relu隱藏單元,第二個卷積層有6455個過濾器。兩個模型都使用最大池化,並向下取樣了2倍。
倒數第二層有3072個隱藏節點,使用relu啟用,退出率為0.2。採用l2-svm的卷積層與使用softmax的卷積層的區別主要體現在支援向量機的c常數、softmax的權值衰減常數和學習速率上。我們通過驗證分別為每個模型選擇這些超引數的值。
在**方面,最先進的(在寫作時)結果是9.5%左右,然而,該模型的不同之處在於它包含了對比度歸一化層以及使用貝葉斯優化來優化其超引數。
為了弄清楚dlsvm的增益是由於目標函式的顯著性還是由於能夠更好地進行優化,我們觀察了兩個最終模型在其自身目標函式和其他目標下的損失。結果如表3:
值得注意的是,交叉熵越低,中間一行的誤差就越大。此外,我們還初始化了乙個convnet+softmax模型,其中dlsvm的權值誤差為11.9%。隨著進一步的訓練,網路的錯誤率逐漸增加到14%。這說明dlsvm的增益很大程度上是因為乙個更好的目標函式。
綜上所述,我們已經證明了dlsvm在兩個標準資料集和乙個最近的資料集上比softmax更有效。從softmax切換到svms非常簡單,似乎對分類任務非常有用。還需要進一步的研究來探索其他的多類支援向量機的公式,進一步理解增益獲得的位置和倍數。
支援向量機專題 線性支援向量機
原文 當資料線性不可分時,使用硬間隔支援向量機很難得到理想的結果。但是如果資料近似線性可分,可以採用軟間隔支援向量機 線性支援向量機 進行分類。這通常適用於有少量異常樣本的分類,如果使用線性支援向量機,它會盡量使得所有訓練樣本都正確,如下圖所示。顯然這並不是最好的結果,軟間隔支援向量機可以權衡 間隔...
線性支援向量機學習演算法
輸入 線性可分訓練集 t 其中 xi rn,yi 輸出 分離超平面和分類決策函式 1 選擇懲罰引數 c 0 構造並求解凸二次規劃問題 min 12 i 1 n j 1n i jyi yj x i xj i 1n is.t.i 1n iyi 00 i c,i 1,2,n 求得最優解 1,2,n t 2...
深度學習筆記 SVM 支援向量機
支援向量機support vector machine svm 是有監督學習中最有影響的方法之一。svm與邏輯回歸logistic regression相似,都基於線性函式 wt x b svm的關鍵創新在與kernel trick,採用樣本點乘的形式我們可以將svm使用的線性函式寫成wt x b ...