極大似然函式求解極大似然估計的理解與應用

極大似然估計是概率論中乙個很常用的估計方法，在機器學習中的邏輯回歸中就是基於它計算的損失函式，因此還是很有必要複習一下它的相關概念的。

背景先來看看幾個小例子：

獵人師傅和徒弟一同去打獵，遇到乙隻兔子，師傅和徒弟同時放槍，兔子被擊中一槍，那麼是師傅打中的，還是徒弟打中的？

乙個袋子中總共有黑白兩種顏色100個球，其中一種顏色90個，隨機取出乙個球，發現是黑球。那麼是黑色球90個？還是白色球90個？

看著兩個小故事，不知道有沒有發現什麼規律...由於師傅的槍法一般都高於徒弟，因此我們猜測兔子是被師傅打中的。隨機抽取乙個球，是黑色的，說明黑色抽中的概率最大，因此猜測90個的是黑色球。

他們有乙個共同點，就是我們的猜測(估計)，都是基於乙個理論：概率最大的事件，最可能發生

其實我們生活中無時無刻不在使用這種方法，只是不知道它在數學中是如何確定或者推導的。而在數理統計中，它有乙個專業的名詞：

極大似然估計(maximum likelihood estimation, mle)，通俗的說就是 —— 最像估計法(最可能估計法)

數學過程

極大似然原理與數學表示

官方一點描述上面的過程，即：有n個實驗結果，\(_\)到\(_\)，如果\(_\)發生了，則意味著\(_\)發生的概率最大。

即，一次試驗就發生的事件，這個事件本身發生概率最大

ps舉個例子，我們在學校衡量學習成績的標準就是考試成績，高考更是一考定終身的感覺。高考成績的好壞，則可以當做乙個學生能力的體現，雖然有的人考試緊張考砸了，有的人超常發揮了，但是從概率上來說，高考的成績基本可以判斷這個人的(學習)能力。基於極大似然的解釋就是，我們高考的成績很大程度上反應了平時的學習能力，因此考得好的(當前發生的事件)，可以認為是學習好的(所有事件發生概率最大的)。

再抽象一點，如果事件發生是關於 \(\theta\) 引數的，那麼一次事件放生時，樣本為\(_,..._\)，那麼\(\hat (_,..._)\)就是\(\theta\)的估計值。當\(\theta=\hat (_,..._)\)時，當前樣本發生的概率最大。

ps再舉個射箭的例子，在《權力的遊戲》中有個場景，老徒利死的時候，屍體放在穿上，需要弓箭手在岸邊發射火箭引燃。但是當時的艾德慕·徒利公爵**三箭都沒中，布林登·徒利實在看不下去了，通過旗幟判斷風向，一箭命中！

因此箭能否射中靶心，不僅跟弓箭手的瞄準能力有關，還跟外界的風向有關係。假設不考慮人的因素，但看風向...同樣的瞄準和力度，風太大不行、太小也不行....那我們給風的大小設定乙個值為\(\theta\)。假設一名弓箭手射出了三隻箭，分別是8環、6環、7環(即\(_=8\),\(_=6\),\(_=7\))，當天風的大小為88。那麼我們認為只有\(\theta=88\)，發生上面事件的概率最大。

極大似然估計法

如果總體x為離散型

假設分布率為\(p=p(x;\theta )\)，x是發生的樣本，\(\theta\)是代估計的引數，\(p(x;\theta)\)表示估計引數為\(\theta\)時，發生x的的概率。

那麼當我們的樣本值為：\(_,_,...,_\)時，

\[l(\theta )=l(_,_,...,_;\theta )=\prod _^_;\theta ) }

其中\(l(\theta)\)成為樣本的似然函式。

假設\[l(_,_,...,_;\hat )=\underset l(_,_,...,_;\theta )

有 \(\hat\) 使得 \(l(\theta)\) 的取值最大，那麼 \(\hat \)就叫做引數 \(\theta\) 的極大似然估計值。

如果總體x為連續型

基本和上面類似，只是概率密度為\(f(x;\theta)\)，替代p。

解法構造似然函式\(l(\theta)\)

取對數：\(lnl(\theta)\)

求導，計算極值

解方程，得到\(\theta\)

解釋一下，其他的步驟很好理解，第二步取對數是為什麼呢？

因為根據前面你的似然函式公式，是一堆的數字相乘，這種演算法求導會非常麻煩，而取對數是一種很方便的手段：

由於ln對數屬於單調遞增函式，因此不會改變極值點

由於對數的計算法則：\(ln^=blna\)、\(lnab=lna+lnb\) ，求導就很方便了

例子這裡就不舉了，感興趣的話，可以看看參考的第二篇裡面有好幾個求解極大似然估計的例子。

參考

極大似然函式求解 極大似然估計的理解與應用

最大似然估計 極大似然估計

極大似然估計

極大似然估計

相關推薦

極大似然函式求解極大似然估計的理解與應用

最大似然估計極大似然估計