在利用深度學習模型解決有監督問題時,比如分類、回歸、去噪等,我們一般的思路如下:
資訊流forward propagation,直到輸出端;
定義損失函式l(x, y | theta);
誤差訊號back propagation。採用數學理論中的「鏈式法則」,求l(x, y | theta)關於引數theta的梯度;
利用最優化方法(比如隨機梯度下降法),進行引數更新;
重複步驟3、4,直到收斂為止;
在第2步中,我們通常會見到多種損失函式的定義方法,常見的有均方誤差(error of mean square)、最大似然誤差(maximum likelihood estimate)、最大後驗概率(maximum posterior probability)、交叉熵損失函式(cross entropy loss),下面我們就來理清他們的區別和聯絡。一般地,乙個機器學習模型選擇哪種損失函式,是憑藉經驗而定的,沒有什麼特定的標準。具體來說,
(1)均方誤差是一種較早的損失函式定義方法,它衡量的是兩個分布對應維度的差異性之和。說點題外話,與之非常接近的一種相似性度量標準「余弦角」,則衡量的是兩個分布整體的相似性,也即把兩個向量分別作為乙個整體,計算出的夾角作為其相似性大小的判斷依據,讀者可以認真體會這兩種相似性判斷標準的差異;
(2)最大似然誤差是從概率的角度,求解出能完美擬合訓練樣例的模型引數theta,使得概率p(y | x, theta)最大化;
(3)最大化後驗概率,即使得概率p(theta | x, y)最大化,實際上也等價於帶正則化項的最大似然概率(詳細的數學推導可以參見bishop 的pattern recognition and machine learning),它考慮了先驗資訊,通過對引數值的大小進行約束來防止「過擬合」;
(4)交叉熵損失函式,衡量的是兩個分布p、q的相似性。在給定集合上兩個分布p和q的cross entropy定義如下:
其中,h(p)是p的熵,dkl(p||q)表示kl-divergence。對於離散化的分布p和q,
在機器學習應用中,p一般表示樣例的標籤的真實分布,為確定值,故最小化交叉熵和最小化kl-devergence是等價的,只不過之間相差了乙個常數。
值得一提的是,在分類問題中,交叉熵的本質就是似然函式的最大化。證明如下,
(1)對於二分類問題,p(x)=[1, 0],q(x)=[y_1, y_2],y_1=p(y=1|x)表示模型輸出為真的概率,交叉熵h(p, q)=-(1*y_1+0*y_2)=-y_1,顯然此時交叉熵的最小化等價於似然函式的最大化;
(2)對於多分類問題, 假設p(x)=[0, 0, 0, ..., 1, 0, 0],q(x)=[y_1, y_2, y_3, ..., y_k, y_(k+1), y_(k+2)],即表示真實樣例標籤為第k類,y_k=p(y=k|x)表示模型輸出為第k類的概率,交叉熵h(p, q)=-( 0*y_1+0*y_2+0*y_3+...+1*y_k+0*y_(k+1)+0*y_(k+2) ) = -y_k, 此時同上。
交叉熵損失和合頁損失(分析)
合頁損失函式 是一種帶有置信度的損失函式。ps 可滿足性比較容易達到。ps 用svm的置信區間來進行比較。它的通用表示式為 帶有軟間隔的線性svm,它最初的損失函式 經過約束變形得到 函式進一步可寫為 進一步 svm的損失函式可以看為l2正則項和合頁損失函式之和!ps 直接對合頁損失進行優化很難,所...
交叉熵損失函式 交叉熵損失函式和均方差損失函式引出
交叉熵 均方差損失函式,加正則項的損失函式,線性回歸 嶺回歸 lasso回歸等回歸問題,邏輯回歸,感知機等分類問題 經驗風險 結構風險,極大似然估計 拉普拉斯平滑估計 最大後驗概率估計 貝葉斯估計,貝葉斯公式,頻率學派 貝葉斯學派,概率 統計 記錄被這些各種概念困擾的我,今天終於理出了一些頭緒。概率...
交叉熵損失函式
公式 分類問題中,我們通常使用 交叉熵來做損失函式,在網路的後面 接上一層softmax 將數值 score 轉換成概率。如果是二分類問題,我們通常使用sigmod函式 2.為什麼使用交叉熵損失函式?如果分類問題使用 mse 均方誤差 的方式,在輸出概率接近0 或者 接近1的時候,偏導數非常的小,學...