聊一聊極大似然估計

極大似然估計（maximum likelihood estimation，mle），也可翻譯為最大似然估計，在理解這個演算法之前我們先從名稱上試著分析一下。

首先，mle的本質是一種估計方法。估計在我們的生活中無處不在，估計方法更是數不勝數，那麼為什麼要估計呢？我覺得無非以下兩個原因：

無法獲得準確的值。例如你去菜市場買菜，一顆白菜重6兩，那麼這個數字就是估計得到的。因為不管用傳統的秤還是電子秤，都是存在誤差的，所以「6兩」這個數字一定是不準確的，只是誤差在我們的允許範圍之內而已。當然，我們可以將這顆白菜拿到專業的實驗室，採用全世界最先進最準確的天平來稱重，這無異於高射炮打蚊子。

所以，第二個要進行估算的原因是得到準確的值成本太高。如果對全國人口進行普查，理論上來講是可以得到全中國的實際人口數量的，因為人是個體，即乙個活體是否應該被統計為人的概率要麼為0，要麼為1，不存在其他情況。但是，全中國有十幾億人口，我們要求人口普查結果100%精確，乙個不多乙個不少，真的有意義嗎？

以上是對兩種結果的直觀描述。當然，放到科學領域這樣的示例依然不勝列舉。而極大似然估計要解決什麼問題呢？

考慮這樣一種情況，對於某一數學問題，我們已經建立了其數學模型，但是模型引數無法準確獲得，我們肯定要想辦法去確定這些引數。我們能做的就是獲得n個樣本，然後基於這些樣本來推測模型引數的最大可能取值。這就是極大似然估計的基本原理。

這裡的似然，英文為likelihood，可以理解為可能性，所以極大似然估計方法是一種基於某事件最有可能發生而推導出的演算法。通過這種顧名思義式的理解，可以幫助我們了解極大似然估計演算法的原理。

假設我們已經通過實驗獲得了n

個樣本，分別為x

1,x2,…,xn

，模型引數為q

，這裡的q

可以是乙個數值，也可以是由一組數值組成的向量，具體情況視數學模型而定。

我們可以選取