加餘邊界softmax損失的人臉驗證

2021-10-06 07:52:26 字數 2158 閱讀 3553

2、am-softmax 損失函式

3、三種損失下的特徵分布

4、 a-softemax與am-softmax比較

5、實驗

6、相關部落格

貢獻:它提出了一種更為直觀,簡單的分類損失函式相比於a-softmax,並且效果比

a-softmax更好。

不足:提出am-softmax的決策邊界 相比於arcface 的決策邊界稍微遜色一點;

首先將權重w 與特徵y進行歸一化為模為1的值所有wy=||w||||y||*cosθ

\theta

θ=cosθ

\theta

θ(4)中這裡再減去我們定義懲罰m,這就表示我們最後一層網路輸出的值代入softmax表示式中得(6)

這裡分母為啥分兩部分了,因為這裡是對yi對應的類進行懲罰,(減m操作),其他的yi並沒有懲罰。同時這裡有兩個超引數乙個s,m;s=30而m在0.3到0.45最佳

2、 normface這正是本**基於的演算法,減小了類內距離。

3、sphereface在最佳超引數下特徵分布

4和5都是本輪的演算法對應特徵分布。

am-softmax m取比0.2更大的值會有類內距離會更小,而sphereface如果λ

\lambda

λ>0.5,效能會下降。

a-softemax損失函式:

am-softemax損失函式:

a-softmax 1比am-softmax 2更複雜,其中1特徵y沒有做歸一化模為1處理,而2做了。然後1還使用了ψ(θ

)\psi(\theta)

ψ(θ)

分界函式來限制θ

\theta

θ取值。

asoftmax是用m乘以θ,而amsoftmax是用cosθ減去m,這是兩者的最大不同之處:乙個是角度距離,乙個是余弦距離。

使用傳統的softmax的時候,角度距離和余弦距離是等價的,即

但是當我們試圖要推動決策邊界的時候,角度距離和余弦距離就有所不同了。

最終的決策邊界是和余弦相關的,根據cos的性質,優化角度距離比優化余弦距離更有效果,因為余弦距離相對更密集

之所以選擇cosθ-m而不是cos(θ-m),這是因為我們從網路中得到的是w和f的內積,如果要優化cos(θ-m)那麼會涉及到arccos操作,計算量過大

這部分摘抄自 這裡

2、到底要不要特徵歸一化處理?

**提到在這基於你處理影象質量,特徵歸一化會影響特徵的反向傳播操作,在處理低質量影象(及特徵範數很小的影象)如megaface資料集,特徵歸一化操作具有一定提高參更新作用;在高質量影象lfw中,特徵歸一化引數更新效果不佳,具體見下圖:

人臉檢測模型使用了目前最先進的mtcnn檢測,而網路使用了resnet20,相應實驗設定參照了a-softmax實驗具體如下:

首先使用mtcnn檢測人臉,在將人臉裁剪為112*96大小;減去128再除以128做歸一化操作;沒有使用預訓練模型,從頭開始訓練網路權重衰減為:0.0005;batch=256

學習率r=0.1開始,在16k,24k和28k除以10.訓練3萬次停止變化。使用影象映象進行資料增強,將將映象和正面人臉特徵加在一起作為人臉影象的表示;比較面部影象時,將用余弦相似度作為度量。

實驗資料如下 (w/o fn表示為無特徵歸一化):

人臉識別softmax演算法的loss的演化史概述

softmax損失函式

首先我們來介紹一下資訊熵。資訊熵又叫kl散度,是資訊的平均編碼長度。給定資訊出現的概率向量p p1,p 2,pn p p 1,p 2,p n p p1 p2 pn 其中p ip i pi 為第i ii條資訊出現的概率,那麼資訊的平均編碼長度為h p i npilog 1 pih p sum i np...

交叉熵損失函式以及softmax損失函式

週六總結 參考資料 本markdown編輯器使用stackedit修改而來,用它寫部落格,將會帶來全新的體驗哦 markdown 是一種輕量級標記語言,它允許人們使用易讀易寫的純文字格式編寫文件,然後轉換成格式豐富的html頁面。維基百科 使用簡單的符號標識不同的標題,將某些文字標記為粗體或者斜體,...

softmax分類及交叉熵損失

回歸就是通過y wx b得到的。而如果是分類,則輸出層神經元個數即為類別數。例如3類,o i wx b,i 1,2,3,然後將輸出值o做指數變化exp o i 得到的exp o 1 exp o i 即將輸出值變為和為1的概率分布。即對輸出進行指數歸一化處理 分類的損失函式一般用交叉熵損失函式 回歸一...