在真正了解乙個機器學習演算法的時候,發現有許多概念還是很模糊這裡整理了最小二乘法(least square)、最大似然估計( maximum likelihood estimation)和最大後驗估計的關係。
一、最小二乘法
最小二乘法的本質就是找到乙個估計值,使實際值與估計值的距離最小。而為了度量最小距離,只要使實際值與估計值之差的平方最小就好,下面就是最小二乘的表示式損失函式cost function,我們的目標就是求θ。
求解方法是通過梯度下降演算法,通過訓練資料不斷迭代得到最終的值。
最小二乘的主要應用場景為回歸分析,因為回歸常用平方損失作為損失函式。
二、似然函式的引出
我們從概率的角度考慮一下最小二乘求解原理,假設目標變數y和輸入x的關係如下:
其中ε為誤差項,假設服從正態分佈,均值為0,標準差為σ,可以寫成
我們帶入上面的關係方程得到y的概率方程:
這裡要注意θ不是變數,不在條件中用「;」隔開。通過給定的θ和x求解y就是我們的正常的概率思想,但是如果我們把這個方程看成是關於θ的方程時,就變成了似然方程:
似然函式與上面的概率方程的最大區別在於,關注的不再是事件發生的概率,而是已知事件發生的情況下希望知道對應的引數應該是多少,這和求概率恰恰相反。上面的式子還可以寫成:
最大化l(θ)就是最大似然估計,但一般都會最大化log likelihood:
這時可以發現,此時的最大化似然函式和最初的最小二乘損失函式本質上是一樣的。但是要注意這兩者只是恰好有著相同的表達結果,實際並沒有本質的聯絡。因為當likelihood用的是gaussian的時候,由於gaussian kernel裡有個類似於euclidean distance的東西,一求log就變成square loss了,導致解和olse(就是ordinary的最小二乘)是一樣的。而碰巧剛接觸mle的時候基本都是gaussian假設,這才導致很多人分不清楚(這句話套用知乎上的解釋)。
三、似然函式的解析
參考wiki上的定義似然函式的結果等於已知引數時的結果的概率值(這裡注意l不是乙個條件概率,通常用;隔開)
對於離散概率分布:
設x是引數為θ時服從離散概率分布p的隨機變數,則:
看成是θ的方程,稱為似然函式。
對於連續概率分布則用密度函式衡量:
四、最大後驗概率
這裡就是引入了貝葉斯學派的理論了,關於貝葉斯學派和頻率學派的區別參見知乎,我們就知道,貝葉斯學派主張一切都有乙個先驗概率。而且上面的似然函式推倒中頻率學派把引數θ看作是固定而未知的常數,而樣本是隨機的,有關概率的運算都是針對樣本x的分布。而貝葉斯學派把這個引數看作是隨機變數,而樣本x看作是固定的,重視的是引數θ的分布,通常是:通過引數的先驗分布結合樣本資訊得到引數的後驗分布。例子參見。
最小二乘 最大似然和最大後驗的簡單總結
在真正了解乙個機器學習演算法的時候,發現有許多概念還是很模糊這裡整理了最小二乘法 least square 最大似然估計 maximum likelihood estimation 和最大後驗估計的關係。一 最小二乘法 最小二乘法的本質就是找到乙個估計值,使實際值與估計值的距離最小。而為了度量最小距...
最小二乘和最大似然
輸入一組向量xx x1 x2,xd 用線性模型 輸出變數y。y ww txx 1 其中ww 是權重,是線性模型的引數。在這裡,我們已經將輸入向量擴增為增廣向量xx x1 x2,xd,1 最後的1所對應的權重為截距。這種做法方便後續處理。我們有一批樣本 x x1,y 1 xx2,y2 xxn yn n...
最大似然與最小二乘
看似最小二乘估計與最大似然估計在推導得到的結果很相似,但是其前提條件必須引起大家的注意!對於最小二乘估計,最合理的引數估計量應該使得模型能最好地擬合樣本資料,也就是估計值和觀測值之差的平方和最小,其推導過程如下所示。其中q表示誤差,yi表示估計值,yi 表示觀測值。對於最大似然法,最合理的引數估計量...