深度學習之最大似然估計 最小二乘 梯度下降(二)

2021-08-22 02:37:23 字數 1893 閱讀 3350

最小二乘和極大似然估計是目標函式,梯度下降是優化演算法。機器學習的核心是乙個模型,乙個損失函式loss fuction,加上乙個優化的演算法。乙個目標函式可以用不同的優化演算法,不同的目標函式也可以用相同的優化演算法。所以最小二乘和極大似然根本不是演算法,和梯度下降毫無可比性。

ps:最小二乘和極大似然也不是對立的。最小二乘是從函式形式上來看的,極大似然是從概率意義上來看的。事實上,最小二乘可以由高斯雜訊假設+極大似然估計推導出來。當然極大似然估計還可以推導出其他的loss function,比如logistic回歸中,loss function是交叉熵.

最大似然(mle),最小二乘都是構造目標函式的方法,構造出這個目標函式後,我們可以用各種優化方法來找到它的極值,這些優化方法中,有一類是使用函式的梯度資訊,包括一階的方法,例如梯度下降,以及二階的方法,例如牛頓法等。

對於線性回歸問題,它的模型最大似然來構造乙個目標函式,最後用梯度下降來找到目標函式的最值。當然,對於這個問題,我們也可以不用梯度下降,直接用向量的投影來直接算出最優解的表示式(最小二乘)。

實際上可以這樣理解,極大似然函式(構造損失函式)+梯度下降可以解決所有回歸問題,但多用於logist回歸、最小二乘法直接用向量計算最有接,多用於非logist的回歸。(最小二乘得到的損失函式也可以用梯度下降演算法求解)

為什麼logist回歸不用最小二乘?

首先要知道最小二乘法是使得損失函式的導數最小化,計算的是導數為0的凹點。

文章參考最小二乘、極大似然、梯度下降法、最小二乘、極大似然、梯度下降有何區別

似然函式與概率非常類似但又有根本的區別,概率為在某種條件(引數)下**某事件發生的可能性;而似然函式與之相反為已知該事件的情況下推測出該事件發生時的條件(引數);所以似然估計也稱為引數估計。

似然函式l為在給定結果y的情況下引數w的取值情況,概率函式l為知道了引數w求得y的取值

線性回歸和分類回歸,都可以由最大似然估計法推導而來,說明了最大似然估計法是一種更普適的描述模型匹配的方法。

詳情請見機器學習 -- 1. 極大似然函式、機器學習 --- 2. 從最大似然再看線性回歸

對於一元線性回歸模型, 假設從總體中獲取了n組觀察值(x1,y1),(x2,y2), …,(xn,yn)。對於平面中的這n個點,可以使用無數條曲線來擬合。要求樣本回歸函式盡可能好地擬合這組值。綜合起來看,這條直線處於樣本資料的中心位置最合理。 選擇最佳擬合曲線的標準可以確定為:使總的擬合誤差(即總殘差)達到最小。有以下三個標準可以選擇:

(1)用「殘差和最小」確定直線位置是乙個途徑。但很快發現計算「殘差和」存在相互抵消的問題。

(2)用「殘差絕對值和最小」確定直線位置也是乙個途徑。但絕對值的計算比較麻煩。

(3)最小二乘法的原則是以「殘差平方和最小」確定直線位置。用最小二乘法除了計算比較方便外,得到的估計量還具有優良特性。這種方法對異常值非常敏感。

最小二乘法的目標公式:

最小二乘法的求解結果

最小二乘法的推導

最小二乘、梯度下降演算法介紹

最小二乘、梯度下降的關係

最小二乘估計與最大似然估計

看似最小二乘估計與最大似然估計在推導得到的結果很相似,但是其前提條件必須引起大家的注意!對於最小二乘估計,最合理的引數估計量應該使得模型能最好地擬合樣本資料,也就是估計值和觀測值之差的平方和最小,其推導過程如下所示。其中q表示誤差,yi表示估計值,yi 表示觀測值。對於最大似然法,最合理的引數估計量...

最大似然估計與最小二乘的理解

最大似然估計,就是利用已知的樣本結果,反推最有可能 最大概率 導致這樣結果的引數值。例如 乙個麻袋裡有白球與黑球,但是我不知道它們之間的比例,那我就有放回的抽取10次,結果我發現我抽到了8次黑球2次白球,我要求最有可能的黑白球之間的比例時,就採取最大似然估計法 我假設我抽到黑球的概率為p,那得出8次...

最小二乘和最大似然

輸入一組向量xx x1 x2,xd 用線性模型 輸出變數y。y ww txx 1 其中ww 是權重,是線性模型的引數。在這裡,我們已經將輸入向量擴增為增廣向量xx x1 x2,xd,1 最後的1所對應的權重為截距。這種做法方便後續處理。我們有一批樣本 x x1,y 1 xx2,y2 xxn yn n...