目前出現的相對流行的場景分類方法主要有以下三類:
(1) 基於物件的場景分類:
這種分類方法以物件為識別單位,根據場景中出現的特定物件來區分不同的場景;
基於視覺的場景分類方法大部分都是以物件為單位的,也就是說,通過識別一些有
代表性的物件來確定自然界的位置。典型的基於物件的場景分類方法有以下的中間步驟:
特徵提取、重組和物件識別。
缺點:底層的錯誤會隨著處理的深入而被放大。例如,上位層中小物件的識別往往會受到下屬層
相機感測器的原始雜訊或者光照變化條件的影響。尤其是在寬敞的環境下,目標往往會非常分散,
這種方法的應用也受到了限制。需要指出的是,該方法需要選擇特定環境中的一些固定對
象,一般使用深度網路提取物件特徵,並進行分類。
演算法:alexnet。
演算法:vgg-net。除了傳統的卷積層、pooling層、全連線層。alexnet加入了
(1)非線性啟用函式:relu;
(2)防止過擬合的方法:dropout,dataaugmentation。同時,使用多個gpu,lrn歸一化層。
同時,vgg-net的所有 convolutional layer 使用同樣大小的 convolutional filter,大小為 3 x 3。
演算法:googlenet。
提出的inception結構是主要的創新點,這是(network in network)的結構,即原來的結點也是乙個網路。
在單層卷積層上使用不同尺度的卷積核就可以提取不同尺寸的特徵,單層的特徵提取能力增強了。其使用之後整個網路結構的寬度和深度都可擴大,能夠帶來2-3倍的效能提公升。
演算法:resnet。
resnet引入了殘差網路結構(residual network),通過在輸出與輸入之間引入乙個shortcut connection,而不是簡單的堆疊網路,這樣可以解決網路由於很深出現梯度消失的問題,從而可可以把網路做的很深。這種方法目前也是業界最高水準了。
(2) 基於區域的場景分類;
首先通過目標候選候選區域選擇演算法,生成一系列候選目標區域,
然後通過深度神經網路提取候選目標區域特徵,並用這些特徵進行分類。
演算法:rcnn
計算多工loss。技術路線:selective search + cnn + svms
演算法:fast-r-cnn
步驟:輸入一幅影象和selective search方法生成的一系列proposals,通過一系列卷積層
和pooling層生成feature map,然後用roi(region ofineterst)層處理最後乙個卷積層
得到的feature map為每乙個proposal生成乙個定長的特徵向量roi_pool5。
roi層的輸出roi_pool5接著輸入到全連線層, 產生最終用於多工學習的特徵並用於
全連線輸出包括兩個分支:
1.softmax loss:計算k+1類的分類loss函式,其中k表示k個目標類別。
(3) 基於上下文的場景分類:2.regressionloss:即k+1的分類結果相應的proposal的bounding box四個角點座標值。
最終將所有結果通過非極大抑制處理產生最終的目標檢測和識別結果。
演算法:faster-r-cnn:
faster-r-cnn演算法由兩大模組組成:1.prn候選框提取模組 2.fast r-cnn檢測模組。
其中,rpn是全卷積神經網路,通過共享卷積層特徵可以實現proposal的提取;
fastr-cnn基於rpn提取的proposal檢測並識別proposal中的目標。
這類方法不同於前面兩種演算法,而將場景影象看作全域性物件而非影象中的某一物件或細節,
這樣可以降低區域性雜訊對場景分類的影響。
將輸入作為乙個特徵,並提取可以概括影象統計或語義的低維特徵。該類方法的目的
即為提高場景分類的魯棒性。因為自然中很容易摻雜一些隨機雜訊,這類雜訊會對
區域性處理造成災難性的影響,而對於全域性影象卻可以通過平均數來降低這種影響。
基於上下文的方法,通過識別全域性物件,而非場景中的小物件集合或者準確的區域邊界,
因此不需要處理小的孤立區域的雜訊和低階的變化,其解決了分割和目標識別分類方法遇到的問題。
演算法:基於gist的場景分類
步驟:通過 gist 特徵提取場景影象的全域性特徵。gist 特徵是一種生物啟發式特徵,
該特徵模擬人的視覺,形成對外部世界的一種空間表
示,捕獲影象中的上下文資訊。gist 特徵通過多尺度
多方向 gabor 濾波器組對場景影象進行濾波,將濾波後
的影象劃分為 4 × 4 的網格,然後各個網格採用離散傅
里葉變換和視窗傅利葉變換提取影象的全域性特徵資訊。
用cnn 進一步學習更深層次的特徵,並在 cnn 最高層進行場景分類
NLP 基於深度學習的文字分類2
另外提出兩種更加高效的訓練方法 1.skip grams原理和網路結構 word2vec模型中,主要有skip gram和cbow兩種模型,從直觀上理解,skip gram是給定input word來 上下文。而cbow是給定上下文,來 input word。word2vec模型實際上分為了兩個部分...
筆記 深度學習場景調研
深度學習的大潮如火如荼,但深度學習並非所有問題的最好答案。那麼哪些方向已經較為成熟應用了深度學習並取得了較好效果呢,通過了解深度學習如何解決不同的問題,從而更深入理解深度學習演算法的特點與適用性,做了相關調研,附上鏈結如下 基於深度學習的目標檢測演算法綜述 如何評價rcnn fast rcnn和fa...
nlp實踐 基於深度學習的文字分類1
fasttext bag of tricks for efficient text classification 與傳統機器學習不同,深度學習既提供特徵提取功能,也可以完成分類的功能。基於fasttext的文字分類 如何使用驗證集調參 在基於機器學習的文字分類中,介紹了4中文字表示方法 one ho...