交叉熵損失函式 交叉熵損失函式和均方差損失函式引出

2021-10-12 08:47:43 字數 2173 閱讀 3114

交叉熵、均方差損失函式,加正則項的損失函式,線性回歸、嶺回歸、lasso回歸等回歸問題,邏輯回歸,感知機等分類問題、經驗風險、結構風險,極大似然估計、拉普拉斯平滑估計、最大後驗概率估計、貝葉斯估計,貝葉斯公式,頻率學派、貝葉斯學派,概率、統計……………… 記錄被這些各種概念困擾的我,今天終於理出了一些頭緒。

概率(probabilty)和統計(statistics)看似兩個相近的概念,其實研究的問題剛好相反。概率研究的問題是,已知乙個模型和引數,怎麼去**這個模型產生的結果的特性(例如均值,方差,協方差等等)。 舉個例子,我想研究怎麼養豬(模型是豬),我選好了想養的品種、餵養方式、豬棚的設計等等(選擇引數),我想知道我養出來的豬大概能有多肥,肉質怎麼樣(**結果)。

統計研究的問題則相反。統計是,有一堆資料,要利用這堆資料去**模型和引數。仍以豬為例。現在我買到了一堆肉,通過觀察和判斷,我確定這是豬肉(這就確定了模型。在實際研究中,也是通過觀察資料推測模型是/像高斯分布的、指數分布的、拉普拉斯分布的等等),然後,可以進一步研究,判定這豬的品種、這是圈養豬還是跑山豬還是網易豬,等等(推測模型引數)。

頻率學派認為世界是確定的。他們直接為事件本身建模,也就是說事件在多次重複實驗中趨於乙個穩定的值p,那麼這個值就是該事件的概率。他們認為模型引數是個定值,希望通過類似解方程組的方式從資料中求得該未知數。這就是頻率學派使用的引數估計方法-極大似然估計(mle),這種方法往往在大資料量的情況下可以很好的還原模型的真實情況。

貝葉斯學派認為世界是不確定的,因獲取的資訊不同而異。假設對世界先有乙個預先的估計,然後通過獲取的資訊來不斷調整之前的預估計。 他們不試圖對事件本身進行建模,而是從旁觀者的角度來說。因此對於同乙個事件,不同的人掌握的先驗不同的話,那麼他們所認為的事件狀態也會不同。他們認為模型引數源自某種潛在分布,希望從資料中推知該分布。對於資料的觀測方式不同或者假設不同,那麼推知的該引數也會因此而存在差異。這就是貝葉斯派視角下用來估計引數的常用方法-最大後驗概率估計(map),這種方法在先驗假設比較靠譜的情況下效果顯著,隨著資料量的增加,先驗假設對於模型引數的主導作用會逐漸削弱,相反真實的資料樣例會大大佔據有利地位。極端情況下,比如把先驗假設去掉,或者假設先驗滿足均勻分布的話,那她和極大似然估計就如出一轍了。

貝葉斯公式:

似然(likelihood)這個詞其實和概率(probability)是差不多的意思,似然函式概率函式卻是兩個不同的概念(其實也很相近就是了)。對於這個函式:

輸入有兩個:x表示某乙個具體的資料;θ表示模型的引數。如果θ是已知確定的,x是變數,這個函式叫做概率函式(probability function),它描述對於不同的樣本點x,其出現概率是多少。如果x是已知確定的,θ是變數,這個函式叫做似然函式(likelihood function), 它描述對於不同的模型引數,出現x這個樣本點的概率是多少。

最大似然估計(mle)是求引數θ, 使似然函式

最大。拉普拉斯平滑估計

最大後驗概率估計(map)則是想求θ使

最大。當資料量增大map會逼近mle。

經驗風險最小化結構風險最小化是對於損失函式而言的。可以說經驗風險最小化只側重訓練資料集上的損失降到最低;而結構風險最小化是在經驗風險最小化的基礎上約束模型的複雜度,使其在訓練資料集的損失降到最低的同時,模型不至於過於複雜,相當於在損失函式上增加了正則項,防止模型出現過擬合狀態。

從概率論的角度:

線性回歸的解析解可以用 gaussian 分布以及最大似然估計求得

嶺回歸可以用 gaussian 分布和最大後驗估計解釋(l2正則)

lasso回歸可以用 laplace 分布和最大後驗估計解釋(l1正則)

從貝葉斯角度,正則項等價於引入引數

的先驗概率分布。常見的l1/l2正則,分別等價於引入先驗資訊:引數符合拉普拉斯分布/高斯分布。分類問題同樣。

參考資料

交叉熵損失函式

公式 分類問題中,我們通常使用 交叉熵來做損失函式,在網路的後面 接上一層softmax 將數值 score 轉換成概率。如果是二分類問題,我們通常使用sigmod函式 2.為什麼使用交叉熵損失函式?如果分類問題使用 mse 均方誤差 的方式,在輸出概率接近0 或者 接近1的時候,偏導數非常的小,學...

交叉熵損失函式

監督學習的兩大種類是分類問題和回歸問題。交叉熵損失函式主要應用於分類問題。先上實現 這個函式的功能就是計算labels和logits之間的交叉熵。tf.nn.softmax cross entropy with logits logits y,labels y 首先乙個問題,什麼是交叉熵?交叉熵 c...

損失函式 交叉熵

給定兩個概率分布p和q,通過q來表示p的交叉熵為 h p q xp x l ogq x large h p,q sum p x logq x h p,q x p x log q x 交叉熵刻畫的是兩個概率分布之間的距離,或可以說它刻畫的是通過概率分布q來表達概率分布p的困難程度,p代表正確答案,q代...