一般來說,兩個變數之間的關係是十分微妙的,僅僅採用簡單的直線、曲線引數方程去描述是不夠的,所以這時候就需要非引數回歸。關於非引數和引數方法的區別,就是在分析之前有沒有對**做一些限制,比如認為特徵和響應變數之間具有線性關係,可以通過線性方程擬合,我們只需要求出方程的係數就是引數方法,比如之前提到的線性回歸、多項式回歸等等,而如果直接從資料出發進行分析就是非引數方法。正正因為沒有限制,所以非引數方法擬合得到的曲線可以更好地描述變數之間的關係,不管是多麼複雜的曲線關係都能擬合得到。
loess(locally weighted regression)是一種用於區域性回歸分析的非引數方法,它主要是把樣本劃分成乙個個小區間,對區間中的樣本進行多項式擬合,不斷重複這個過程得到在不同區間的加權回歸曲線,最後再把這些回歸曲線的中心連在一起合成完整的回歸曲線,具體過程如下:
· 決定擬合點的數量和位置
· 以擬合點為中心,確定k個最接近的點
· 通過權重函式計算這k個點的權重
· 通過加權線性回歸進行多項式擬合(一次或者二次)
· 對所有擬合點重複以上步驟
關於權重的確定,這裡需要說明一下,首先它需要確定區間內的點到擬合的點的距離,這個距離指x軸的距離,我們還要找到區間內最大的距離,然後對其他距離做歸一化處理:
w i ( x 0 ) = w ( ∣ x 0 − x i ∣ δ ( x 0 ) ) w_i(x_0) = w(\frac)wi(x0)=w(δ(x0)∣x0−xi∣)
這個權重是離擬合點的距離越近就越小,所以我們就需要做乙個轉化,比如用tricube weight function:
w ( u ) = ( 1 − u 3 ) 3 w(u) = (1 - u^3)^3w(u)=(1−u3)3
指數可以選擇二次(b函式)或三次(w函式),三次方對周圍權值的降速更快,平滑效果更好,切適用於大多數分布,但增加了殘差的方差,一般來說,第一次迭代會更多實用w函式,第二次迭代會選擇b函式。
關於對區間內的散點進行加權線性回歸進行擬合,之所以我們這裡採取加權線性回歸而不是普通的線性回歸,是因為考慮到對擬合點,它附近的點的取值對擬合線的影響應該更大,遠一點的點的影響更小,所以我們要定義損失函式的時候,應該優先降低附近的點與擬合直線的誤差,這也就是我們對普通的最小二乘法要加上權重的原因,實際上這就是加權最小二乘法:
j ( a , b ) = 1 n ∑ i = 1 n w i ( y i − a x i − b ) 2 j(a,b) = \frac \sum_^n w_i(y_i -ax_i -b)^2j(a,b)=n1i=1∑nwi(yi−axi−b)2
可以看到,損失函式加上權重之後,我們在最小化損失函式時,就會更多地考慮權重大的點,希望他們更優,這樣擬合出來的結果,自然就更加偏向權重大的點了,也就是說,距離擬合點更近距離的散點,對擬合直線的影響更大。
以上就是loess的基本思路。
區域性加權回歸LOESS
首先看下面的三幅圖,第一幅擬合為了 y 0 1xy 0 1x 的一次函式 第二幅擬合為了y 0 1x 2x2y 0 1x 2x2 的二次函式 第三幅擬合為了 y 5j 0 jxjy j 05 jxj的五次項函式 最左邊的分類器模型沒有很好地捕捉到資料特徵,不能夠很好地擬合資料,我們稱為欠擬合 而最右...
區域性加權回歸
區域性加權緊接著上面的線性回歸中引數求解來繼續講吧。還是以上面的房屋 的 它的中心思想是在對引數進行求解的過程中,每個樣本對當前引數值的影響是有不一樣的權重的。比如上節中我們的回歸方程為 這個地方用矩陣的方法來表示 表示引數,i表示第i個樣本,h為在 引數下的 值 我們的目標是讓 最小,然後求出來 ...
區域性加權回歸
區域性加權緊接著上面的線性回歸中引數求解來繼續講吧。還是以上面的房屋 的 它的中心思想是在對引數進行求解的過程中,每個樣本對當前引數值的影響是有不一樣的權重的。比如上節中我們的回歸方程為 這個地方用矩陣的方法來表示 表示引數,i表示第i個樣本,h為在 引數下的 值 我們的目標是讓 最小,然後求出來 ...