機器學習演算法 線性回歸

2021-08-25 08:58:23 字數 1244 閱讀 6612

線性回歸應該算機器學習演算法裡面最基礎的演算法了,分別用作回歸(y值為連續值)和分類(y值為離散)。在學習線性回歸的過程中,有很多機器學習的概念和方法是在這時候提出的。

在現實中變數之間的關係,是有確定的和非確定的。確定關係指的是變數之間可以使用函式關係式表示,非確定的部分我們可以用概率分布來表示,如乙個人的身高對應一定的體重,但不是身高相同體重就一定相同。確定關係裡最常用的就是線性關係了。如下

把不確定的部分放進來,那麼真實的值就可以表示為

這個誤差值,根據中心極限定理,如果樣本資料足夠大那麼可以認為復符合高斯分布的(也就是正態分佈)。把上式帶入到高斯分布中,得到下式(消去了不確定項):

接下來就是利用最大似然估計法來化簡這個式子

我們需要上面的這個似然函式最大,也即需要它右邊的項最小,所以目標函式為最小化下式

下面就是如何求解這個得到這個目標函式最小值的問題了。最常規的是採用代數方法,求導然後得到這個函式的駐點。

得到的解θ值為

這裡可以得到解得前提是

還有一種方法是採用梯度下降法,這是許多機器學習求解目標函式的通用方法。對梯度下降方法之前有專門寫文章討論過,這裡不再贅述。

為了防止出現過擬合的情況,會在目標函式裡面加入複雜性懲罰因子,也就是正則項。對正則項我也專門寫了文章討論,這裡先不贅述。

在求解線性回歸的過程還涉及到乙個知識點就是奇異值分解svd。我們將中的

這樣就可以方便求出解了。

另外線性回歸可以擴充套件到高階的非線性回歸,相當於增加維度,多了xi的高階項。

機器學習演算法 線性回歸

樣本特徵只有乙個的線性回歸問題,為簡單線性回歸。樣本特徵有多個的線性回歸問題,為多元線性回歸。兩個變數之間的關係是一次函式關係的 圖象是直線,這樣的兩個變數之間的關係就是 線性關係 如果不是一次函式關係的 圖象不是直線,就是 非線性關係 線性回歸演算法將無數的訓練集資料放在乙個座標系中,以座標系的乙...

機器學習演算法 線性回歸

線性回歸是利用數理統計中回歸分析,來確定兩種或兩種以上變數間相互依賴的定量關係的一種統計分析方法,運用十分廣泛。其表達形式為y w x e,e為誤差服從均值為0的正態分佈。回歸分析中,只包括乙個自變數和乙個因變數,且二者的關係可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括...

機器學習演算法 線性模型 線性回歸

線性回歸 是試圖學得乙個線性模型盡可能準確地 實值輸出標記。西瓜書 個人通俗理解就是簡單線性回歸找到一條直線盡可能到給出的樣本點距離要小,多維則變成找乙個超平面。如上圖 3.1 3.2 均方誤差最小的直線,均方誤差即學習器到真實值的距離的平方和,來刻畫擬合直線到樣本點的差距 一元回歸不需要用到矩陣求...