級聯卷積神經網路(人臉檢測)

2021-08-04 05:57:43 字數 2220 閱讀 6021

本文介紹的人臉檢測方法,**於2015cvpr《a convolutional neural network cascade for face detection》。本篇文章的方法可以說是對經典的viola jones方法的深度卷積網路實現,並沒有讓人眼前一亮的地方,但依然有以下幾點可以學習。

下圖是該方法的整個流程示意圖,可以明顯看出是3階級聯(12-net、24-net、48-net)。

級聯的工作原理和好處:

1、最初階段的網路可以比較簡單,判別閾值可以設得寬鬆一點,這樣就可以在保持較高召回率的同時排除掉大量的非人臉視窗;

2、最後階段網路為了保證足夠的效能,因此一般設計的比較複雜,但由於只需要處理前面剩下的視窗,因此可以保證足夠的效率;

3、級聯的思想可以幫助我們去組合利用效能較差的分類器,同時又可以獲得一定的效率保證。

下圖展示了,3階段平均剩下的視窗數量及對應的召回率:

下圖是3階網路的具體網路結構:

由上圖可以看出,前2階的網路都非常簡單,只有第3階才比較複雜。這不是重點,重點是我們要從上圖中學習多尺度特徵組合。

以第2階段的24-net為例,首先把上一階段剩下的視窗resize為24*24大小,然後送入網路,得到全連線層的特徵。同時,將之前12-net的全連線層特徵取出與之拼接在一起。最後對組合後的特徵進行softmax分類。

下圖展示了,使用和不使用多尺度特徵的差異:

由圖可見,採用多尺度特徵可以相同條件下獲得相對較高的召回率,即提公升了網路的分類能力。

該校正網路是為了解決下面的定位不准的問題的:

在上圖中,藍色框是(如12-net)分類網路的輸出,紅色框是經過對應的12-calibration-net校正後的輸出。

對於矩形框的校正,我們只需要3個引數,乙個是水平平移量xn,乙個是垂直平移量yn,還有乙個是寬高縮放比例sn。即我們要將矩形框的控制座標調整為:

直覺上來看,這是要解決乙個回歸問題,需要回歸出3個引數。但是連續的回歸問題是很難解決的,因此文章將此轉化為離散的分類問題。文章首先,將3個引數分別列出一些值:

於是,我們的目標就是建立乙個45類的分類器,畢竟神經網路的強項在於分類。校正網路如下圖所示。

但是,這個分類器的準確性仍然不是很穩定。因此,文章選擇得分比較高的幾類做平均,最後進行校正,即:

對於級聯問題,文章採用了特殊的訓練策略。

1、按照一般的方法組織正負樣本訓練第一階段的12-net和12-calibration-net網路;

2、利用上述的1層網路在aflw資料集上作人臉檢測,在保證99%的召回率的基礎上確定判別閾值t1。

3、將在aflw上判為人臉的非人臉視窗作為負樣本,將所有真實人臉作為正樣本,訓練第二階段的24-net和24-calibration-net網路;

4、重複2和3,完成最後階段的訓練

神經網路 卷積神經網路

這篇卷積神經網路是前面介紹的多層神經網路的進一步深入,它將深度學習的思想引入到了神經網路當中,通過卷積運算來由淺入深的提取影象的不同層次的特徵,而利用神經網路的訓練過程讓整個網路自動調節卷積核的引數,從而無監督的產生了最適合的分類特徵。這個概括可能有點抽象,我盡量在下面描述細緻一些,但如果要更深入了...

神經網路 卷積神經網路

1.卷積神經網路概覽 來自吳恩達課上一張,通過對應位置相乘求和,我們從左邊矩陣得到了右邊矩陣,邊緣是白色寬條,當畫素大一些時候,邊緣就會變細。觀察卷積核,左邊一列權重高,右邊一列權重低。輸入,左邊的部分明亮,右邊的部分灰暗。這個學到的邊緣是權重大的寬條 都是30 表示是由亮向暗過渡,下面這個圖左邊暗...

卷積神經網路與邊緣檢測

計算機視覺的三個應用場景 由畫素構成,一張的資料量很大,如果採用傳統的dnn其參數量巨大,難以處理。為此,需要進行卷積計算,它是卷積神經網路中非常重要的一塊。卷積運算是卷積神經網路最基本的組成部分,使用邊緣檢測作為入門樣例。這是乙個6 6的灰度影象。因為是灰度影象,所以它是6 6 1的矩陣,而不是6...