線性回歸簡潔的說就是將輸入項分別乘以一些常量,再將結果加起來,得到輸出。
求解回歸係數:選擇使得平方誤差最小的w(回歸係數)。
平方誤差可以寫作:∑i
=1m(
yi−x
tiw)
2 用矩陣表示還可以寫做(y
−xw)
t(y−
xw) 。如果對w求導,得到xt
(y−x
w),令其等於0,解出w如下:w^
=(xt
x)−1
xty
w上方的hat標記表示這是當前可以估計出的w的最優解。
求解最優w還可以使用ols,意思是「普通最小二乘法」。
度量回歸方程的好壞:可以使用**值和原始值的相關度來進行度量。
優點:結果易於理解
缺點:對非線性的資料擬合不好
適用資料型別:數值型和標稱型資料
線性加權存在欠擬合現象。因此,在有些方法中允許在估計中引入一些偏差,從而降低**的均方誤差。區域性加權線性回歸就是其中的乙個方法。
區域性加權線性回歸:每次**均需要事先選取出對應的資料子集,給定待**點附近的每個點賦予一定的權重,在這個自己上基於最小均方差來進行普通的回歸。
回歸係數w的形式如下:w^
=(xt
wx)−
1xtw
y 其中,w是乙個矩陣,用來給每個資料的賦予權重。
區域性線性回歸使用「核」來對附近的賦予更高的權重。核的型別可以自由選擇,最常使用的就是高斯核,高斯核對應的權重如下:w(
i,i)
=exp
(∣∣x
i−x∣
∣−2k
2)這樣就構建了乙個只含對角元素的權重矩陣w,並且點x與x(i)越近,w(i,i)將會越大。其中引數k(平滑值)決定了對附近的點賦予多大的權重。
優點:一定程度的解決了線性回歸的欠擬合問題。
缺點:計算量大,每次必須在整個資料集上執行。也就是說為了做出**,必須儲存所有的訓練資料。
為了解決特徵比樣本點還多的問題,也就是瘦輸入資料的矩陣x不是滿秩矩陣的問題,即無法求逆的問題。引入了嶺回歸的概念。
嶺回歸:在矩陣xt
x 上加入乙個λi
從而使得矩陣非奇異,進而能對xt
x+λi
求逆。其中
i 是乙個m*m的單位矩陣,對角線上的元素全為1,其他元素全為0。而
λ是乙個由使用者定義的數值,通過多次實驗,選擇使得**誤差最小的
λ 。
回歸係數的計算公式變為:w^
=(xt
x+λi
)−1x
ty嶺回歸的應用:1)特徵數目多餘樣本數目的情況;2)在估計中加入偏差,從而得到更好的估計。通過增加罰項,可以減少不重要的引數,即縮減。
還有一些其他的縮減方法,如lasso,lar,pca回歸以及子集選擇等。與嶺回歸一樣,這些方法不僅能提高**精確率,而且可以解釋回歸係數。
《統計學習方法筆記》 Logistic回歸
假設有一些資料點,我們利用一條直線對這些資料點進行擬合 該線稱為最佳擬合直線 這個擬合過程就稱為回歸。利用logistic進行回歸的主要思想 根據現有資料對分類邊界線建立回歸公式,以此進行分類。1.優化目標函式 需要的函式應該是可以接受所有的輸入然後 出類別。例如,在兩類的情況下,上述函式輸出0或1...
統計學習方法筆記1 統計學習方法概論
統計學習是關於計算機基於資料構建概率統計模型並運用模型對資料進行 與分析的一門學科。從資料出發,提取資料的特徵,抽象出資料的模型,發現資料中的知識,又回到對資料的分析與 中去。統計學習關於資料的基本假設是同類資料具有一定的統計規律性,這是統計學習的前提。這裡的同類資料是指具有某種共同性質的資料,例如...
統計學習方法筆記
1.損失函式 期望,就是均值 極大似然估計 似然就是概率 可能性,所以也是極大可能性估計 對數損失是用於最大似然估計的。一組引數在一堆資料下的似然值,等於每一條資料的概率之積。而損失函式一般是每條資料的損失之和,為了把積變為和,就取了對數 再加個負號是為了讓 最大似然值和 最小損失對應起來 w 是w...