機器學習筆記 區域性權重線性回歸

2021-09-27 15:14:48 字數 1240 閱讀 7534

看下面三幅圖,x 軸是房間面積,y 軸是房價。

左圖是 y = θ0 + θ1x 擬合資料集的結果。可以看到資料並不貼靠在直線上,所以擬合併不好。

中圖是 y = θ0 + θ1x + θ2x2 擬合資料集的結果,擬合得還不錯。

右圖是 y = θ0 + θ1x + θ2x2  + θ3x3 + θ4x4 + θ5x5

擬合資料集的結果,雖然曲線跟資料擬合得極好,但我們這是乙個好的**。

左圖被稱為欠擬合,資料並沒有被模型捕獲。右圖被稱為過擬合。

由以上例子可見,特徵的選擇對於保證學習演算法好的效能是很重要的。當我們講到模型選擇時,會看到自動選擇特徵集合的演算法。

這次我們先講區域性權重線性回歸演算法,使得特徵的選擇沒那麼重要,怎麼做到的呢?請往下看。

在原始的線性回歸演算法中,要在 x 點做乙個**,我們會執行:

1、變動 θ 以最小化 ∑i(y(i)-θtx(i))2

2、輸出 θtx

在區域性權重線性回歸演算法中,做法稍有不同:

1、變動 θ 以最小化 ∑iw(i)(y(i)-θtx(i))2

2、輸出 θtx

多了個 w(i),是做什麼用的呢?

w(i) 是非負值的權重,直觀上看,當 w(i) 很大時,那麼在選擇 θ 時,我們會盡量使 x(i) 點的值 (y(i)-θtx(i))2 小,也就是更加重視 x(i) 點的**準確度,當 w(i) 很小時,那麼 x(i) 點的準確度我們就不那麼在乎, (y(i)-θtx(i))2 的誤差大也無所謂,也可以說不在乎 x(i) 點。

權重通常定義為:

可以看到權重大小決定於我們要評估的 x 點的位置,當 x(i) 離 x 點很近,即 |x(i)-x| 很小接近於 0 時,那麼 w(i) 就接近 1;當 x(i) 離 x 點很遠,即 |x(i)-x| 很大時,那麼 w(i) 就變得很小。所以在 θ 的選擇上給予查詢點 x 附近的訓練集更高的權重。τ 是控制 x(i) 的權重隨著離 x 距離變遠而變小的速度。

區域性權重線性回歸演算法是我們介紹的第乙個非引數演算法。之前我們介紹的線性回歸演算法是引數學習演算法,因為它有固定、有限個數的引數 θ,一旦我們找到合適的 θ,在**新資料是,就不再需要訓練資料集。而區域性權重線性回歸演算法,做**時,就需要用到整個訓練集。術語 」非引數「 實際上就是為了表示假設 h,我們需要保持的負擔量隨訓練集大小呈線性增長。

機器學習筆記 區域性權重線性回歸

看下面三幅圖,x 軸是房間面積,y 軸是房價。左圖是 y 0 1x 擬合資料集的結果。可以看到資料並不貼靠在直線上,所以擬合併不好。中圖是 y 0 1x 2x2 擬合資料集的結果,擬合得還不錯。右圖是 y 0 1x 2x2 3x3 4x4 5x5 擬合資料集的結果,雖然曲線跟資料擬合得極好,但我們這...

機器學習 區域性加權線性回歸

一 問題引入 我們現實生活中的很多資料不一定都能用線性模型描述。依然是房價問題,很明顯直線非但不能很好的擬合所有資料點,而且誤差非常大,但是一條類似二次函式的曲線卻能擬合地很好。為了解決非線性模型建立線性模型的問題,我們 乙個點的值時,選擇與這個點相近的點而不是所有的點做線性回歸。基於這個思想,便產...

機器學習 區域性加權線性回歸

線性回歸的乙個問題時又可能出現欠擬合現象,為了解決這個問題,我們可以採用乙個方法是區域性加權線性回歸 locally weighted linner regression 簡稱lwlr。該演算法的思想就是給帶 點附近的每乙個點賦予一定的權值,然後按照簡單線性回歸求解w的方法求解,與knn一樣,這種演...