關於最大似然與交叉熵損失函式和最小二乘法的思考

2021-07-23 10:53:41 字數 4415 閱讀 999

極大似然是機器學習裡面最基礎的概念了,就輕微的再複述一下:

假設x的概率分布滿足乙個分布f(

x;θ)

,也就是在給定

θ 的情況下,x的分布情況,給定一串觀測結果x1

,x2.

..xn

,我們現在是要估計引數

θ ,使得p(

θ|x=

xn) 最大,根據貝葉斯公式p(

a|b)

=p(b

|a)⋅

p(a)

我們可以通過使p(

x=xn

|θ) 最大來實現,這裡

| 並不嚴格指的是條件概率,而是在給定的

θ的情況下,p(

x=xn

) 的概率。而這個式子就是似然函式ι(

θ)。通過極大化似然函式,然後求取引數

θ 就能得到模型結果。

因為這一部分涉及一些公式推導,而這些推導也只是一些簡單的數學變換,所以這一部分直接引用的是牛頓方法&指數族分布&glm的文章,在這裡向原作者表示感謝。指數族分布的公式為:p(

y;η)

=b(y

)exp

(ηtt

(y)−

a(η)

) 其中,η

成為分布的自然引數(nature parameter);t(

y)是充分統計量(sufficient statistic),通常 t(

y)=y

。當引數 a、b、t 都固定的時候,就定義了乙個以η為引數的函式族。為什麼要使用這種模式,wikipedia給出了一些原因,就不在這兒贅述了,讀者可以自己去搜尋,總之其有很多統計學方面的好處。

關於下面兩種分布:

伯努利分布

伯努利分布式對於0、1問題建模的,be

rnou

lli(

φ),p

(y=1

;φ)=

φ;p(

y=0;

φ)=1

−φ下面將其推導成指數分布族形式:

p(y;

θ)=e

xp(y

log(

φ1−φ

)+lo

g(1−

φ))

對應於指數族的分布,可以得到: b(

y)=1

t(y)=y

η=log(

φ1−φ

)⇒φ=

11+e

−ηa(

η)=l

og(1

−φ)

高斯分布

下面對高斯分布進行推導,推導公式如下(為了方便計算,我們將方差 σ設定為1):

高斯分布的公式以及推導如下:

n(μ,

1)=1

2π−−

√(−1

2exp

(−12

(y−μ

)2))

=12π

−−√e

xp(−

12y2

)exp

(μy−

12u2

)

對比可知:b(

y)=1

2π−−

√exp

(−12

y2) η=

μ a(

η)=1

2μ2

指數族分布主要是為了匯出廣義線性模型,仔細觀察伯努利分布和高斯分布的指數分布族形式中的η變數。可以發現,在伯努利的指數分布族形式中,η與伯努利分布的引數φ是乙個logistic函式(下面會介紹logistic回歸的推導)。此外,在高斯分布的指數分布族表示形式中,η與正態分佈的引數μ相等,下面會根據它推導出普通最小二乘法(ordinary least squares)。通過這兩個例子,我們大致可以得到乙個結論,η以不同的對映函式與其它概率分布函式中的引數發生聯絡,從而得到不同的模型,廣義線性模型正是將指數分布族中的所有成員(每個成員正好有乙個這樣的聯絡)都作為線性模型的擴充套件,通過各種非線性的連線函式將線性函式對映到其他空間,從而大大擴大了線性模型可解決的問題。

下面我們看 glm 的形式化定義,glm 有三個假設:

(1) y|

x;θe

xpon

enti

alfa

mily

(η) ;給定樣本x與引數

θ ,樣本分類y 服從指數分布族中的某個分布;

(2) 給定乙個 x,我們需要的目標函式為hθ

(x)=

e[t(

y)|x

] ;

(3)η=θ

tx。

依據這三個假設,我們可以推導出logistic模型與普通最小二乘模型。首先根據伯努利分布推導logistic模型,推導過程如下:hθ

(x)=

e[t(

y)|x

]=e[

y|x]

=p(y

=1|x

;θ)=

φ=11

+e−η

=11+

e−θt

x(1)

公式第一行來自假設(2),公式第二行通過伯努利分布計算得出,第三行通過伯努利的指數分布族表示形式得出,然後在公式第四行,根據假設三替換變數得到。

同樣,可以根據高斯分布推導出普通最小二乘,如下:hθ

(x)=

e(t(

y)|x

)=e[

y|x]

=μ=η

=θtx

(2)

公式第一行來自假設(2),第二行是通過高斯分布n(

μ,σ2

) 計算得出,第三行是通過高斯分布的指數分布族形式表示得出,第四行即為假設(3)。

上面的鋪陳完畢,然後來看一看標題中提到的三者的關係。

首先看二項分布的概率:p(

y;φ)

=φy(

1−φ)

(1−y

)(3)

其實該式子就是極大似然,為了使之能夠滿足指數家族分布,我們得到了φ=

11+e

−θtx

(4)

這也是上一part提到的logistic分布,(3)其對數似然函式是:l(

φ)=y

log(

1−φ)

+(1−

y)lo

g(1−

φ)(5

) ,而對於logistic回歸,其交叉熵損失函式是:−l

(φ) ,因此當尋找引數是交叉熵損失函式最小的時候,其實也是在求原來的分布p(

y;w,

x)似然函式值最大的過程。

同樣對於高斯分布,似然函式為l(

y;σ=

1,θ,

x)=1

2π−−

√(−1

2exp

(−12

(y−μ

)2))

(6)

μ=θt

x(7)

y 和x

符合高斯分布,我們使用最小二乘法mi

n(y−

θtx)

2 來估計引數的過程,其實也就是求取似然函式(6)的極大值。這樣,這兩個損失函式就都找到了其似然函式的根據。

另一方面,我們來看下廣義線性模型的假設的第二條hθ

(x)=

e[t(

y)|x

] ;在對(5)和(6)求最大似然引數估計之後,那麼p(

y;w,

x)就確定了,對於(5)式,當求出引數估計之後,代入y=1其實就求出了p(

y=1;

w,x)

了也就是(4)式,而這就是其似然函式的期望(4)。同樣,對於(6)式,求出最大似然引數估計之後,那麼p(

y;w,

x) p

(y;w

,x) 這個高斯分布,當引數w和x確定之後,我們想要得到y的值很自然的就想到的是使其概率最大的那個y值,而根據高斯分布規律知道,就是(7)式。經過上述分析,我們可以看出,當求出極大似然函式的引數估計之後,其對應的需要求取的值都知道了,而且等於期望,而且求取(5)和(6)的引數估計的也就是求取(4)和(7)的引數估計,而且我們需要的結果正好就是(4)(7)式,所以我們通過求取(4)(7)的引數估計不僅能夠求出最大似然估計,而且能夠直接得到我們需要的結果,所以對(4)式求最小交叉熵和對(7)式求取最小二乘的時候就等於求出了(5)(6)的極大似然引數估計,而且求出引數之後直接代入(5)(7)就能直接求出結果。

再來看一下廣義線性模型的假設的第二條hθ

(x)=

e[t(

y)|x

] ,就能更加明白期望的含義,所謂期望就是在當前條件下使該事情發生最大概率的那個值。

通過一些過程的思考,感覺慢慢的了解了機器學習中很多的細節,文中相關概率符號可能有些錯誤,再次致歉,另外第一次在markdown編輯器中使用latex函式,感覺還是很好用的,棒棒的

♡ 。10月7日於北京。

機器學習-牛頓方法&指數分布&glm

latex一些符號

最大似然損失和交叉熵損失函式的聯絡

在利用深度學習模型解決有監督問題時,比如分類 回歸 去噪等,我們一般的思路如下 資訊流forward propagation,直到輸出端 定義損失函式l x,y theta 誤差訊號back propagation。採用數學理論中的 鏈式法則 求l x,y theta 關於引數theta的梯度 利用...

最大似然估計 交叉熵與最大似然估計的聯絡

交叉熵刻畫的是實際輸出 概率 與期望輸出 概率 的距離,也就是交叉熵的值越小,兩個概率分布就越接近,即擬合的更好。kl散度如下圖所示 當p分布是已知,則熵是常量 於是交叉熵和kl散度則是等價的。最小化kl散度和模型採用最大似然估計進行引數估計又是一致的。可以從公式推導上證明 最小化交叉熵即最小化kl...

交叉熵與極大似然估計

在機器學習中常用到交叉熵損失函式,其 於資訊理論,用以描述兩個兩個分布之間的差異。為便於理解,下面描述幾個相關定義。假設x為乙個離散隨機變數,則x x0的自資訊 可理解為x x0發生所攜帶的資訊 為 單自資訊只處理單個輸出,為描述整個概率分布的不確定性總量,我們定義熵 其表示遵循該分布的事件所產生的...