京ICP備2022018928號(hào)-30 投訴舉報(bào):315 541 185@qq.com
Powered by 名律網(wǎng) Copyright ? 名律網(wǎng)版權(quán)所有
1 介紹論文標(biāo)題:CosFace: Large Margin Cosine Loss for Deep Face Recognition論文作者:H. Wang, Yitong Wang, Zheng Zhou, Xing Ji, Zhifeng Li, Dihong Gong, Jin Zhou, Wei Liu論文來(lái)源:2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition論文地址:download論文代碼:download引用次數(shù):1594
當(dāng)前提出的損失函數(shù)缺乏良好的鑒別能力,所以本文基于 “最大化類間方差和最小化類內(nèi)方差” 的思想提出了大邊際余弦損失(LMCL)。
2 方法2.1 引入$\text{Softmax}$ 損失函數(shù)【指交叉熵?fù)p失函數(shù)】:
(相關(guān)資料圖)
$L_{s}=\frac{1}{N} \sum_{i=1}^{N}-\log p_{i}=\frac{1}{N} \sum_{i=1}^{N}-\log \frac{e^{f_{y_{i}}}}{\sum_{j=1}^{C} e^{f_{j}}} \quad\quad(1)$
其中,
$f_{j}=W_{j}^{T} x=\left\|W_{j}\right\|\|x\| \cos \theta_{j}$
Note:$\theta_{j}$ 代表了 權(quán)重向量 $W_{j}$ 和 $x$ 之間的夾角;
分類任務(wù)的期望,是使得各個(gè)類別的數(shù)據(jù)均勻分布在超球面上。
NSL 損失:【 固定權(quán)重向量$W$ 的模長(zhǎng)$\|W\|=s$ 和特征向量$x$ 的模長(zhǎng)$\|x\|=s$】
$L_{n s}=\frac{1}{N} \sum_{i}-\log \frac{e^{s \cos \left(\theta_{y_{i}, i}\right)}}{\sum_{j} e^{s \cos \left(\theta_{j, i}\right)}} \quad\quad(3)$通過(guò)固定 $\|x\|=s$ 消除徑向的變化,使得模型在角空間中學(xué)習(xí)可分離的特征。
例如,考慮二分類的情況,設(shè) $\theta_{i}$ 表示特征向量與類 $C_{i}$($i = 1,2$)權(quán)重向量之間的夾角。NSL 強(qiáng)制 $C_{1}$ 的 $\cos \left(\theta_{1}\right)>\cos \left(\theta_{2}\right)$,$C_{2}$ 也是如此,因此來(lái)自不同類的特性被正確地分類。
由于 NSL 學(xué)習(xí)到的特征沒(méi)有足夠的可區(qū)分性,只強(qiáng)調(diào)正確的分類。所以,本文在分類邊界中引入余弦間隔,納入 Softmax 的余弦公式中。
為開發(fā)一個(gè)大間隔分類器,進(jìn)一步需要 $\cos \left(\theta_{1}\right)-m>\cos \left(\theta_{2}\right)$ 及 $\cos \left(\theta_{2}\right)-m>\cos \left(\theta_{1}\right)$,其中 $m \geq 0$ 是一個(gè)固定參數(shù)來(lái)控制余弦間隔的大小。由于$\cos \left(\theta_{i}\right)-m$ 低于 $\cos \left(\theta_{i}\right)$,因此對(duì)分類的約束更加嚴(yán)格,推廣到多類:
${\large L_{l m c}=\frac{1}{N} \sum_{i}-\log \frac{e^{s\left(\cos \left(\theta_{y_{i}, i}\right)-m\right)}}{e^{s\left(\cos \left(\theta_{y_{i}, i}\right)-m\right)}+\sum_{j \neq y_{i}} e^{s \cos \left(\theta_{j, i}\right)}}}\quad\quad(4)$
其中,
$\begin{array}{l}W =\frac{W^{*}}{\left\|W^{*}\right\|}\\x =\frac{x^{*}}{\left\|x^{*}\right\|}\\\cos \left(\theta_{j}, i\right) = W_{j}^{T} x_{i}\end{array}\quad\quad(5)$
2.2 方法對(duì)比$\text{Softmax}$ 的決策邊界:【$magin< 0$】
$\left\|W_{1}\right\| \cos \left(\theta_{1}\right)=\left\|W_{2}\right\| \cos \left(\theta_{2}\right)$
邊界依賴于權(quán)重向量的大小和角度的余弦,這導(dǎo)致在余弦空間中存在一個(gè)重疊的決策區(qū)域。
$\text{NSL}$的決策邊界:【$magin= 0$】
$\cos \left(\theta_{1}\right)=\cos \left(\theta_{2}\right)$通過(guò)去除徑向變化,NSL 能夠在余弦空間中完美地分類測(cè)試樣本。然而,由于沒(méi)有決策邊際,它對(duì)噪聲的魯棒性并不大:決策邊界周圍的任何小的擾動(dòng)都可以改變決策。
$\text{A-Softmax}$的決策邊界:
$\begin{array}{l}C_{1}: \cos \left(m \theta_{1}\right) \geq \cos \left(\theta_{2}\right) \\C_{2}: \cos \left(m \theta_{2}\right) \geq \cos \left(\theta_{1}\right) \end{array}$對(duì)于 $C_{1}$,需要 $\theta_{1} \leq \frac{\theta_{2}}{m}$。然而問(wèn)題是 $\text{Margin}$ 隨著 $W_1$ 和 $W_2$ 之間的夾角發(fā)生變化,如果兩個(gè)類的樣本區(qū)分難度很大,導(dǎo)致 $W_1$ 和 $W_2$ 夾角很小,可能會(huì)出現(xiàn)$\text{Margin}$ 很小的情況。
$\text{LMCL}$的決策邊界:
$\begin{array}{l}C_{1}: \cos \left(\theta_{1}\right) \geq \cos \left(\theta_{2}\right)+m \\C_{2}: \cos \left(\theta_{2}\right) \geq \cos \left(\theta_{1}\right)+m\end{array}$
因此,$\cos \left(\theta_{1}\right)$ 被最大化,而 $\cos \left(\theta_{2}\right)$ 被最小化,使得 $C_{1}$ 執(zhí)行大邊際分類。$\text{Figure 2}$ 中 $\text{LMCL}$ 的決策邊界,可以在角度余弦分布中看到一個(gè)清晰的 $\text{Margin}$( $\sqrt{2} m$)。這表明 LMCL 比 NSL 更健壯,因?yàn)樵跊Q策邊界(虛線)周圍的一個(gè)小的擾動(dòng)不太可能導(dǎo)致不正確的決策。余弦裕度一致地應(yīng)用于所有樣本,而不考慮它們的權(quán)值向量的角度。
2.3特征歸一化特征歸一化的必要性包括兩個(gè)方面:
沒(méi)有歸一化之前的 $\text{Softmax}$ 損失函數(shù)會(huì)潛在地學(xué)習(xí)特征向量的 $L_{2}$ 模長(zhǎng)和角度余弦。由于 $L_{2}$ 模長(zhǎng)的增大,會(huì)一定程度上降低損失函數(shù)的值,這樣會(huì)削弱余弦約束;同時(shí)希望所有數(shù)據(jù)的特征向量都具有相同的二范數(shù),以至于取決于余弦角來(lái)增強(qiáng)判別性能。在超球面上,來(lái)自相同類別的特征向量被聚類在一起,而來(lái)自不同類別的特征向量被拉開;比如假設(shè)特征向量為 $\mathrm{x}$,讓 $\cos \left(\theta_{i}\right)$ 和 $\cos \left(\theta_{j}\right)$ 代表特征與兩個(gè)權(quán)重向量的余弦,如果沒(méi)有歸 一化特征,損失函數(shù)會(huì)促使 $\|x\|\left(\cos \left(\theta_{i}\right)-m\right)>\|x\|\left(\cos \left(\theta_{j}\right)\right)$ ,但是優(yōu)化過(guò)程中如果 $\left(\cos \left(\theta_{i}\right)-m\right)<\cos \left(\theta_{j}\right)$ ,為了降低損失函數(shù),用 $\|x\|$ 的增加來(lái)?yè)Q取損失函數(shù)的降低也是很可能的,所以會(huì)導(dǎo)致優(yōu)化問(wèn)題產(chǎn)生次優(yōu)解。 此外尺度參數(shù) $s$ 應(yīng)該設(shè)置足夠大,對(duì)于 NSL,太小的 $s$ 會(huì)導(dǎo)致收斂困難甚至無(wú)法收斂。在 LMCL,我 們需要設(shè)置更大的 $s$ 才能保證在預(yù)設(shè)的 Margin 以及在足夠大的超球面空間來(lái)學(xué)習(xí)特征。 接下來(lái)分析 $s$ 應(yīng)該有一個(gè)下界來(lái)保證獲得期望的分類性能。給定歸一化的學(xué)習(xí)特征向量 $x$ 和單位權(quán)重向量 $W$,用 $C$ 表示類別總數(shù),假設(shè)學(xué)習(xí)到的特征分別位于超平面上,以相應(yīng)的權(quán)重向量為中心。$p_{W}$ 表示類里面期望的最小的后驗(yàn)概率(也就是與 $W$ 重合的特征的后驗(yàn)概率), $s$ 下界為:
$s \geq \frac{C-1}{C} \log \frac{(C-1) P_{W}}{1-P_{W}} \quad\quad(6)$
可以分析出,如果在類別數(shù)保持一定情況下,想要得到最佳的 $p_{W}$,$\mathrm{~s}$ 要足夠大。此外,如果固定 $p_{W}$,隨著類別數(shù)的增加,也需要增大 $\mathrm{s}$ 值,因?yàn)轭悇e數(shù)的增加會(huì)提升分類的難度。
2.4LMCL的理論分析選擇合適的 $\text{Margin}$ 很重要,分析超參數(shù) $\text{Margin}$ 的理論界限很有必要。
考慮二分類問(wèn)題,類別分別是 $\mathrm{C}_1$ 和 $\mathrm{C}_2$,歸一化特征為 $x$,歸一化權(quán)重向量 $W_{i}$,$W_{i}$ 與 $x$ 之間的夾角為 $\theta_{i}$,對(duì)于NSL而言,決策邊界 $\cos \left(\theta_{1}\right)=\cos \left(\theta_{2}\right)$ 等同于 $W_{1}$ 和 $W_{2}$ 的角平分線。對(duì)于 $\mathrm{LMCL}$,對(duì)于 $\mathrm{C}_1$ 類樣本它會(huì)驅(qū)使決策邊界 $\cos \left(\theta_{1}\right)-m=\cos \left(\theta_{2}\right)$ 的形成,這樣會(huì)導(dǎo)致 $\theta_{1}$ 比 $\theta_{2}$ 小的多。因此類間差異擴(kuò)大,類內(nèi)差異縮小。
我們發(fā)現(xiàn) Margin 與 $W_{1}$ 和 $W_{2}$ 之間的角度有關(guān)系。當(dāng) $W_{1}$ 和 $W_{2}$ 都給定的時(shí)候,余弦 Margin 具有范圍的限制。具體而言,假設(shè)一個(gè)場(chǎng)景,即屬于第 $i$ 類的所有特征向量與第 $i$ 類的相應(yīng)權(quán)重向量$W_{i}$ 完全重疊。 換句話說(shuō),每個(gè)特征向量都與類 $i$ 的權(quán)重向量相同,并且顯然,特征空間處于極端情況,其中所有特征向量都位于其類中心,在這種情況下,決策邊界的 Margin 已最大化(即,余弦 Margin 的嚴(yán)格上限)。
理論上 $m$ 的范圍是: $0 \leq m \leq\left(1-\max \left(W_{i}^{T} W_{j}\right)\right), i \neq j$ ,$\text{softmax}$ 損失嘗試使來(lái)自任意兩個(gè)類的兩個(gè)權(quán)重之間的角度最大化,以執(zhí)行完美分類。很明顯,softmax 損失的最佳解決方案應(yīng)將權(quán)重向量均勻分布在單位超球面上。引入的余弦 Maging 的可變范圍可以推斷如下:
$\begin{array}{l}0 \leq m \leq 1-\cos \frac{2 \pi}{C}, \quad(K=2) \\0 \leq m \leq \frac{C}{C-1}, \quad(C \leq K+1) \\0 \leq m \ll \frac{C}{C-1}, \quad(C>K+1)\end{array} \quad\quad(7)$
$C$ 是訓(xùn)練類別數(shù),$K$ 是學(xué)習(xí)特征的維度。這個(gè)不等式意味著隨著類別數(shù)目越多,$\text{Margin}$ 的設(shè)置上界相應(yīng)減少,特別是類別數(shù)目超過(guò)特征維數(shù),這個(gè)上界允許范圍變得會(huì)更小。在實(shí)踐中 $m$ 不要取理論上界,理論上界是一種理想的情況(所有特征向量都根據(jù)相應(yīng)類別的權(quán)重向量居中在一起),這樣當(dāng) $m$ 太大模型是不會(huì)收斂的,因?yàn)橛嘞壹s束太嚴(yán)格,無(wú)法在現(xiàn)實(shí)中滿足。其次過(guò)于嚴(yán)格的余弦約束對(duì)噪聲數(shù)據(jù)非常敏感,影響整體性能。
作者做了一個(gè)小實(shí)驗(yàn)驗(yàn)證了這些思想,取了 8 個(gè)人的人臉數(shù)據(jù),用原始的 $\text{Softmax}$ 損失和本文提出的 LMCL 損失函數(shù)訓(xùn)練樣本,然后將特征提取并可視化,$m$ 應(yīng)該小于 $1-\cos \left(\frac{2 \pi}{8}\right)$,大約 $0.29$ ,分 別設(shè)置 $ \mathrm{m}=0,0.1,0.2$ 三種情況,可以觀察到原始的 $\text{softmax}$ 損失在決策邊界上產(chǎn)生了混淆,而提出的 LMCL 則表現(xiàn)出更大的優(yōu)勢(shì)。隨著$m$ 的增加,不同類別之間的角度 $\text{Margin}$ 已被放大。
京ICP備2022018928號(hào)-30 投訴舉報(bào):315 541 185@qq.com
Powered by 名律網(wǎng) Copyright ? 名律網(wǎng)版權(quán)所有