博主在學習機器學習的時候常常感受到自己數學知識的匱乏。故會逐步總結與機器學習相關的數學知識,發布於此。
這裡吐槽一下,博主的學校雖然名氣很高,但是對於概率論這樣的基礎學科講解的卻很不到位。這裡分析原因主要有下:
- 專業課業壓力重導致概率論只有一學期的課程並且只有三個學分,換言之,只有48*45分鐘,這種短時的學習週期並不能兼顧速度與質量,而老師選擇了質量,導致大量的知識點直接被略過,比如此文的最大似然估計。
- 老師是數學系的,聽課的學生也來自不同的專業,導致有很多和計算機相關的理論並沒有著重講,反而一些和計算機不太相關的理論講了很多。
吐槽結束,進入正題。
首先來看乙個例子,設有兩個完全相同的盒子a和b,其中,盒子a中有99個白球,1個黑球;盒子b中有99個黑球,乙個白球。今隨機抽取一箱,並從中抽取一球,結果取得的是白球,問這個球從哪個箱子取出?
對於這個例子,想必大多人會說,是從盒子a中取出的,因為盒子a中有99%是白球,而盒子b中的白球僅佔1%,所以盒子a的可能性遠遠大於b。換言之,這個球「更像」盒子a中取出的。這裡的「更像」即為最大似然之原意。(』最大似然』這個名字聽起來更高大上,僅此而已)。
所以說起來,最大似然估計就是讓出現這件事情的概率達到最大的那個假設。
當然,問題不會總是這麼簡單。我們再來看乙個例子。
我們用隨機變數x來表示某產品經過檢查後的不合格數,x=0為合格,x=1為不合格,那麼x則服從二點分布,即x~b(1,p),這裡p為不合格率(二點分布的意思就是合格的概率是1-p,不合格的概率是p)。先抽取n各產品,檢查結果為x1
,x2,
...,
xn,讓我們估計p的大小。
首先,檢查結果為x1
,x2,
...,
xn的概率為: l(
p)=π
ni=1
pxi(
1−p)
1−xi
這裡,我們欲估計的p應該使得上式的值最大,即出現這種檢查結果的概率最大。記之為l(
p),稱作最大似然函式。我們欲求l(
p)取得最大值時的p。
對其取對數後求導並令其為0,得: σn
i=1x
ip−n
−σni
=1xi
1−p=
0 解得p的最大似然估計,為p¯
=σni
=1xi
n=x¯
。以上即為求最大似然估計的基本思路。對離散總體,設有樣本觀測值x1
,x2,
...,
xn,我們寫出該觀測值出現的概率,它依賴於某些引數,設這些引數為
θ ,將該概率看作
θ 的函式,又稱作似然函式,即l(
θ)=p
(x1=
x1,x
2=x2
,...
,xn=
xn;θ
) 求最大似然估計就是找
θ 的估計值,使得l(
θ)達到最大。通常來講,將似然函式取對數後求導是最大似然估計最常用的方法。
mle是一種非常有效的引數估計方法,但當分布中有多於引數或資料缺失時,利用上述方法求mle是比較困難的。於是,2023年,dempster等人提出了em演算法。
MLE極大似然估計
極大似然估計 mle 極大似然估計是一種引數估計的方法,即已知樣本估計出模型引數。極大似然估計是頻率學派的一種方法 與貝葉斯學派的極大後驗估計對應 頻率學派認為模型的引數是確定的,只是不知道而已,所以可以通過樣本推斷出模型引數。既然是極大 似然 估計,就要先明白什麼是 似然 在貝葉斯公式中有 其中,...
理解極大似然估計 MLE
極大似然估計學習時總會覺得有點不可思議,為什麼可以這麼做,什麼情況才可以用極大似然估計。本文旨在通俗理解mle maximum likelihood estimate 一 極大似然估計的思想與舉例 舉個簡單的栗子 在乙個盒子裡有白色黑色小球若干個,每次有放回地從裡面哪乙個球,已知抽到白球的概率可能為...
最大似然估計 MLE 與最大後驗估計 MAP
對於函式p x 從不同的觀測角度來看可以分為以下兩種情況 如果 已知且保持不變,x是變數,則p x 稱為概率函式,表示不同x出現的概率。如果x已知且保持不變,是變數,則p x 稱為似然函式,表示不同 下,x出現的概率,也記作l x 或l x 或f x 最大似然估計是已知模型服從某種分布,但不知道其某...