alexnet:7*7卷積
vggnet:用3個3*3的卷積核代替1個7*7的卷積核,兩種卷積核的感受也大小完全相同,但是vgg中的3個3*3的卷積核所包含的引數個數是3*(3*3*c1*c2),7*7的卷積核所包含的引數個數是:7*7*c1*c2,則vgg中卷積網路所包含的引數個數會比alextnet卷積網路的cnn引數少。
goolenet:inception module
resnet:通過殘差連線塊(residual module)解決梯度消失問題。
senet
resnext:是googlenet和resnet的結合
語義分割的基礎網路中:用卷積和max pooling實現下取樣,使用轉置卷積實現上取樣,反卷積就是轉置卷積。卷積在深度學習的框架底層實現**中使用的是矩陣相乘,例如對於4*4的卷積特徵圖再進行3*3的卷積核操作,padding=0,最終將得到2*2的卷積特徵圖,卷積在框架的底層實現過程如下:首先不考慮batch size維度,將4*4的特徵圖flatten成16*1的列向量,用乙個4*16的矩陣乘以16*1的列向量,將得到4*1的列向量,即為輸出的特徵圖。這個過程就是前向的卷積階段(下取樣過程)。在上取樣階段需要使用反卷積操作,如果需要將2*2的特徵圖經過上取樣需要輸出4*4的特徵圖,則需要用16*4的矩陣乘以4*1的列向量,得到16*1的列向量。由於進行上取樣和下取樣的矩陣的shape剛好是為轉置矩陣的關係,故而使用上取樣的卷積操作可以被稱為反卷積或者轉置卷積。
物體檢測模型之yolo
在工業界使用較多的物體檢測模型是yolo,yolo v1 *****基本給出了yolo 模型的大體思路,後面的兩個版本都是加入了一些小的trick。物體檢測是計算機視覺中的經典問題,它包含兩個部分的任務:(1)分類:對於包圍框中的前景類別進行分類;(2)回歸:對於包圍框的具體位置進行回歸。深度學習中的分類問題:其ground truth標籤是離散的,而對於回歸問題,其具體的位置都是連續的座標值,故而ground truth label都是連續的數值。
相比於faster rcnn系列中所包含的顯示地先求取region proposal的過程,以及ssd中的anchor boxes的設定,yolo(you only look once)則非常簡潔,並沒有提出有可能是前景框的候選框。yolo的網路流程如下:(1)首先將原始的輸入影象resize到416*416,(2)然後將影象輸入到卷積神經網路中得到卷積特徵圖,最後一層卷積層的輸出特徵圖就是網路模型的**值,根據**值在輸入影象上畫出prediction bounding boxes(3)對於畫出的包圍框,使用一定的閾值進行nms演算法。對於基於anchor boxes的密集檢測系統而言(通常帶有anchor機制的物體檢測器是密集檢測系統,如faster rcnn中的rpn,以及ssd),最終都會使用nms演算法濾除冗餘的框,因為畢竟ground truth前景框的數量是非常有限的。
將原始的輸入影象劃分成s*s個網格(grid cell),**中將輸入的影象resize成416*416,然後經過卷積網路提取特徵圖之後,得到7*7的特徵圖,b=2,即在網格的每個小方塊中**2個bounding boxes,也意味著在416*416的輸入影象上劃分成7*7個網格,則最終將會生成7*7*2=98個bounding boxes,最終根據對於每個包圍框的confidence和對於網格中每個畫素點的類別概率圖,進行nms演算法,得到最終的**結果。在明確了網路最終所要**的形式之後,讓然需要給出**特徵圖的ground truth label。
在416*416的影象上存在一些ground truth bounding boxes,這些ground truth包圍框的中心點落在了哪個grid cell中,則哪個grid cell的類別概率圖的ground truth就是對應的類別,同時前景的confidence score就是1,如果對於某些網格,沒有任何乙個ground truth 包圍框的中心點落在網格內,則它並不負責**。也就是說,類別概率圖的ground truth label是根據ground truth包圍框的中心點標註的。
點雲資料處理(分類 分割 檢測)
2 pointnet 3 總結 傳統深度學習模式 處理二維影象資料 使用序列化的卷積核處理序列化的二維影象資料,但點雲是一種不規則資料,在空間上和數量上可以任意分布,因此傳統的深度學習模式無法處理點雲資料。在將實景儲存為點雲資料時 以pcd為例 是一行儲存乙個點的xyz資訊,如果放大到多行點雲資料來...
工程實踐 目標檢測 分類 分割模型訓練實踐流程
我們在深度學習研究的過程中,需要對乙個新模型做快速的搭建 配置 除錯 訓練 改寫等步驟,最後才能評估模型的效果,是否可以用於我們的當前的研究和業務的開展。資料集製作 一般我們會從資料側拿到json格式的原生檔案,我們需要對資料集進行格式轉換,比如json voc voc darkent等等。我們還需...
目標檢測與分類
目標檢測的一般思路是 1.獲取含有大量冗餘特徵的集合 2.利用機器學習的方法從特徵集合中找出能夠反映目標物體特性的特徵 3.利用找到的特徵構造分類器,實現目標檢測 當前通用目標檢測領域所使用的特徵主要可以分為兩類。1.通過劃分或變換得到的特徵,如使用最廣泛的haar like特徵。這類特徵的主要特點...