極大似然估計是概率論中乙個很常用的估計方法,在機器學習中的邏輯回歸中就是基於它計算的損失函式,因此還是很有必要複習一下它的相關概念的。
背景先來看看幾個小例子:
獵人師傅和徒弟一同去打獵,遇到乙隻兔子,師傅和徒弟同時放槍,兔子被擊中一槍,那麼是師傅打中的,還是徒弟打中的?
乙個袋子中總共有黑白兩種顏色100個球,其中一種顏色90個,隨機取出乙個球,發現是黑球。那麼是黑色球90個?還是白色球90個?
看著兩個小故事,不知道有沒有發現什麼規律...由於師傅的槍法一般都高於徒弟,因此我們猜測兔子是被師傅打中的。隨機抽取乙個球,是黑色的,說明黑色抽中的概率最大,因此猜測90個的是黑色球。
他們有乙個共同點,就是我們的猜測(估計),都是基於乙個理論:概率最大的事件,最可能發生
其實我們生活中無時無刻不在使用這種方法,只是不知道它在數學中是如何確定或者推導的。而在數理統計中,它有乙個專業的名詞:
極大似然估計(maximum likelihood estimation, mle),通俗的說就是 —— 最像估計法(最可能估計法)
數學過程
極大似然原理與數學表示
官方一點描述上面的過程,即:有n個實驗結果,\(_\)到\(_\),如果\(_\)發生了,則意味著\(_\)發生的概率最大。
即,一次試驗就發生的事件,這個事件本身發生概率最大
ps舉個例子,我們在學校衡量學習成績的標準就是考試成績,高考更是一考定終身的感覺。高考成績的好壞,則可以當做乙個學生能力的體現,雖然有的人考試緊張考砸了,有的人超常發揮了,但是從概率上來說,高考的成績基本可以判斷這個人的(學習)能力。基於極大似然的解釋就是,我們高考的成績很大程度上反應了平時的學習能力,因此考得好的(當前發生的事件),可以認為是學習好的(所有事件發生概率最大的)。
再抽象一點,如果事件發生是關於 \(\theta\) 引數的,那麼一次事件放生時,樣本為\(_,..._\),那麼\(\hat (_,..._)\)就是\(\theta\)的估計值。當\(\theta=\hat (_,..._)\)時,當前樣本發生的概率最大。
ps再舉個射箭的例子,在《權力的遊戲》中有個場景,老徒利死的時候,屍體放在穿上,需要弓箭手在岸邊發射火箭引燃。但是當時的艾德慕·徒利公爵**三箭都沒中,布林登·徒利實在看不下去了,通過旗幟判斷風向,一箭命中!
因此箭能否射中靶心,不僅跟弓箭手的瞄準能力有關,還跟外界的風向有關係。假設不考慮人的因素,但看風向...同樣的瞄準和力度,風太大不行、太小也不行....那我們給風的大小設定乙個值為\(\theta\)。假設一名弓箭手射出了三隻箭,分別是8環、6環、7環(即\(_=8\),\(_=6\),\(_=7\)),當天風的大小為88。那麼我們認為只有\(\theta=88\),發生上面事件的概率最大。
極大似然估計法
如果總體x為離散型
假設分布率為\(p=p(x;\theta )\),x是發生的樣本,\(\theta\)是代估計的引數,\(p(x;\theta)\)表示估計引數為\(\theta\)時,發生x的的概率。
那麼當我們的樣本值為:\(_,_,...,_\)時,
\[l(\theta )=l(_,_,...,_;\theta )=\prod _^_;\theta ) }
其中\(l(\theta)\)成為樣本的似然函式。
假設\[l(_,_,...,_;\hat )=\underset l(_,_,...,_;\theta )
有 \(\hat\) 使得 \(l(\theta)\) 的取值最大,那麼 \(\hat \)就叫做引數 \(\theta\) 的極大似然估計值。
如果總體x為連續型
基本和上面類似,只是概率密度為\(f(x;\theta)\),替代p。
解法構造似然函式\(l(\theta)\)
取對數:\(lnl(\theta)\)
求導,計算極值
解方程,得到\(\theta\)
解釋一下,其他的步驟很好理解,第二步取對數是為什麼呢?
因為根據前面你的似然函式公式,是一堆的數字相乘,這種演算法求導會非常麻煩,而取對數是一種很方便的手段:
由於ln對數屬於單調遞增函式,因此不會改變極值點
由於對數的計算法則:\(ln^=blna\)、\(lnab=lna+lnb\) ,求導就很方便了
例子這裡就不舉了,感興趣的話,可以看看參考的第二篇裡面有好幾個求解極大似然估計的例子。
參考
最大似然估計 極大似然估計
目錄最大似然估計 個人部落格 對於最大似然估計我們使用最簡單的拋硬幣問題來進行講解當我們拋一枚硬幣的時候,就可以去猜測拋硬幣的各種情況的可能性,這個可能性就稱為概率一枚質地均勻的硬幣,在不考慮其他情況下是符合二項分布的,即正面和翻面的概率都是0.5,那麼我們拋10次硬幣5次正面在上面的概率為 但是現...
極大似然估計
在機器學習的領域內,極大似然估計是最常見的引數估計的方法之一,在這裡整理一下它的基本原理。極大似然估計從根本上遵循 眼見為實,這樣的哲學思想。也就是說,它嚴格地僅僅利用了已知的實驗結果,來估計概率模型中的引數。極大似然估計的計算過程非常簡單 1.寫出似然函式 2.求出使得似然函式取最大值的引數的值,...
極大似然估計
一 理論基礎 1 引例 某位同學與一位獵人一起外出打獵,乙隻野兔從前方竄過。只聽一聲槍響,野兔應聲到下,如果要你推測,這一發命中的子彈是誰打的?你就會想,只發一槍便打中,由於獵人命中的概率一般大於這位同學命中的概率,看來這一槍是獵人射中的。這個例子所作的推斷就體現了極大似然法的基本思想。2 簡介 極...