《山世光 深度化的人臉檢測與識別技術》讀書筆記

2021-07-26 01:43:21 字數 1638 閱讀 5345

人臉識別的本質是對比兩個**是否是同乙個人。這個過程可以分為以下幾個步驟:

在這裡面其中最核心的三個步驟是:人臉位置的確定、五官位置的確定和特徵提取器將影象轉換為特徵向量,這也是人臉識別中最本質的三個內容。

人臉識別近期發展的最大特點是人臉識別變得和狗臉識別、貓臉識別沒有太大區別了,在技術上,不用把人臉識別特別來看待了。人臉識別能在過去的三四年裡能有乙個快速的發展得益於深度學習。

在深度學習之後,人臉識別實現了深度化。在計算機視覺領域,深度學習應用最好、最成功的就是卷積神經網路(cnn)。

卷積神經網路大約是20世紀80年代出現的,到2023年這期間出現了一些卷積神經網路的雛形。2023年出現的卷積神經網路和現在的神經網路在本質上沒有什麼區別。

卷積神經網路實質上是對輸入進行加權求和之後,去做乙個非線性變化的過程。輸入影象通過濾波器組進行非線性卷積,卷積後在每一層產生特徵對映圖,然後特徵對映圖中的值再進行加權求和並進行非線性變換。在此過程中這些畫素在池化層被池化,最後得到輸出值。

在深度學習技術之前,幾乎所有人臉檢測都是採用滑動視窗式的方法。即設計乙個分類器,對於設計乙個滑動的視窗,檢測滑動視窗部分是否是人臉,然後對影象縮放後再檢測。

不管是人臉檢測還是物體檢測,都需考慮的兩個問題是:

有沒有人臉部分:

- 從人臉特徵–分類器學習「兩步法」轉變為特徵和分類器end-to-end學習

- 從二分類轉變為多分類

人臉在**部分:

在過去的幾年裡出現了一系列的方法,包括:

region cnn系列

r-cnn →spp r-cnn→fast r-cnn→faster r-cnn

回歸系列

yolo

傳統方法與深度方法結合

facenessnet

cascade cnn(coarse-to-fine)

r-cnn

關鍵點:

selective search產生約2000個候選視窗

每個候選窗縮放到227*227(用cnn提取特徵)

svm分類

缺點:

需要2000多次cnn過程,速度很慢。

原因:

大量cnn+svm

spp r-cnn

原理:

在r-cnn基礎上改進,只做一次全圖cnn,如果影象大小不一樣就用spatial pyramid pooling方法。

缺點:

不夠快,gpu也需要數秒,而且訓練比較繁瑣。

fast r-cnn

原理:

比spp r-cnn更簡單的pooling策略,每個候選視窗下取樣

多工損失函式由svm改為softmax分類

faster r-cnn

原理:

用region proposal networks替換selective search,採用anchor boxes機制,在最後層卷積圖上滑窗,用k(特徵圖數)維特徵進行分類和bb回歸。

優點:

精度高,速度快(5fps gpu上)。

21世紀的資訊化與20世紀的自動化

加強資訊系統應用程度與提高工廠儀表投自動化程度是不同層次的一類問題。投自動需要感知單元和動作機構的良好狀態,高素質操作人員,及時的維護保養,新的觀念 深化應用同樣需要軟硬體的高質量,高素質的管理人員,及時的執行維護,新的觀念。機械化 電氣化 自動化都是乙個歷史的程序,資訊化同樣也是這樣,這個程序不僅...

結構化程式設計的三重境界 見山還是山 樸素又正確的邏輯

在上述的隔夜退房的邏輯 中,我們用了五個巢狀,其中有五個計算,但實際上只有3種不同的計算,在這樣的模式下,我們值得思考,是不是 過於冗餘了。現在我們把隔夜 改為如下 code static void main string args else else 隔夜退房 else else 下午18點整之後...

深度學習中的正則化

任何可以使學習演算法有降低泛化誤差意向的改動都是正則化。乙個有效的正則化就是能顯著地降低方差而不過度增加偏差。最好的擬合模型總是乙個適當正則化的大型模型!資料增強是一種便宜且簡單的方法來增加你訓練資料的數量的方法。上面資料增強已經提到,向輸入中注入方差極小的雜訊等價於對權重施加範數懲罰,一般情況下,...