機器學習總結 四 極大似然估計與最小二乘法

2021-08-07 03:16:01 字數 1678 閱讀 6692

基本概念

在總體分布型別已知的前提下所使用的一種引數估計方法,這不同於矩估計,矩估計是在總體分布型別未知的情況下進行的。

理論依據
概率大的事件在一次觀測中更容易出現

通俗的解釋
似然估計法是在已知結果的情況下去求未知引數θ的,對於已經發生的結果(一般指的是我們所抽取出來的樣本),既然他能夠發生,說明在未知引數θ的條件下,這個結果發生的可能性很大,極大似然估計就是求出使得當前結果發生的可能性最大的那個θ值。

極大似然估計法的求解步驟

構建似然函式l(θ)

對似然函式取對數:l(θ)=log l(θ)

對l(θ)中的引數θ求導數(如果有多個引數,則進行求偏導),並令求出的導數方程等於0,求解出對應的引數值即可。

似然函式的構建

似然函式的構建分為離散型和連續型兩大類,具體可見附加筆記第(1)點。

一點疑問
在求解似然函式的最值時,我們僅僅通過將對對數似然函式求導之後的結果等於零,求出對應條件下的θ值就認為已經求出了最大值,按道理講,導數等於零的點應該是極值點呀,不一定是最值點咯?

解釋:主要是因為,我們常見的概率分布函式一般都是屬於指數分布族的,如正態分佈、泊松分布、伯努利分布等,因而在多數情況下我們會認為導數為0的點其實也就是最值點了,但肯定也有不滿足指數分布族的分布存在,只是不常見而已。

似然性與概率的區別
似然性與概率在意思上確實存在著相近關係,均指的是某個事件發生的概率,但兩者又有區別:

概率:用於在已知引數的情況下來**接下來出現的觀測值出現的可能性。

似然性:在已知某些觀測值的基礎上,對原先分布中的未知引數進行估計。

乙個簡單的例子
具體可見附加筆記第(2)點。

核心思想
通過最小化誤差平方和的方式來使得擬合物件無限接近目標物件

深入理解最小二乘法
深入理解最小二乘法只需要了解清楚兩個問題即可:

(1):誤差方程的求解

(2):最小化誤差方程

誤差方程的構建:用目標函式的值減去擬合函式的值,再取平方即可。

最小化誤差方程:其實就是分別對誤差方程中的未知引數求偏導,並令求導之後的式子等於0來計算對應的引數。

最小二乘法、極大似然估計以及梯度下降法的區別
首先應該了解清楚機器學習的三要素:模型、目標和演算法。模型的話目前我已經深入了解的有線性回歸以及邏輯回歸;目標通常指的就是損失函式,損失函式的構建是需要用到最小二乘法和極大似然估計的,具體到模型上的話,線性回歸使用的最小二乘法來構建損失函式的,邏輯回歸使用的是極大似然估計來構建損失函式;最後就是演算法部分,演算法部分可以簡單理解為優化部分,梯度下降就是這部分的演算法,通過不更新引數值來使得損失函式最小,因此梯度下降法和前兩種方法根本就不處於同乙個機器學習的過程中。

乙個簡單例子
具體可見附加筆記第(3)點。

利用極大似然估計法推算最小二乘法
最小二乘法其實是可以通過gaussian分布以及極大似然估計推算出來的,具體可見附加筆記第(4)點。

機器學習之極大似然估計

極大似然估計是在總體型別已知的條件下使用的一種引數估計方法。首先是德國數學家高斯在1821年提出的,然而這個方法常歸功於英國統計學家費歇。極大似然法的基本思想通過乙個例子說明 乙個獵人和乙個二逼外出打獵,乙隻野兔從前方竄過,一聲槍響,野兔應聲倒下。如果要你推測,是誰打中的?你會如何想?選擇乙個引數使...

機器學習(十八)極大似然估計

極大似然估計是在總體型別已知條件下使用的一種引數估計方法 它首先是由德國數學家高斯在1821年提出的,然而,這個方法常歸功於英國統計學家費希爾.費希爾在1922年重新發現了這一方法,並首先研究了這種方法的一些性質 極大似然估計的思想是 選取這樣的 使得當它作為未知引數 的估計時,觀察結果出現的可能性...

機器學習演算法 極大似然估計

極大似然估計 1.若總體x為離散型,其概率分布列為 其中 為為未知引數。設 是取自總體的樣本容量為n的樣本,則 的聯合分布律為 又設 的一組觀測值為 易知樣本 取到觀測值 的概率為 這一概率隨 的取值而變化,它是 的函式,稱 為樣本的似然函式。2.若總體x為連續型,其概率密度函式為 其中 為未知引數...