線性回歸不難,可是它裡面涉及到的一些指標卻很繁雜,關於評價回歸模型的指標在模型評價裡面有介紹,這裡主要介紹一些沒有涉及到的一些其他指標公式之類的東西。 rss
=(y1
−β^0
−β^1
x1)2
+(y2
−β^0
−β^1
x2)2
+...
+(yn
−β^0
−β^1
xn)2
rss = (y_1 - \hat\beta_0 - \hat\beta_1 x_1)^2 + (y_2 - \hat\beta_0 - \hat\beta_1 x_2)^2 + ... + (y_n - \hat\beta_0 - \hat\beta_1 x_n)^2
rss=(y
1−β
^0
−β^
1x1
)2+
(y2
−β^
0−β
^1
x2)
2+..
.+(y
n−β
^0
−β^
1xn
)2 co
r(x,
y)=c
ov(x
,y)v
ar(x
)var
(y
)cor(x,y) = \frac}
cor(x,
y)=v
ar(x
)var
(y)
cov(
x,y)
皮爾遜相關係數取值在-1到1之間,大於0就是正相關,小於0就是負相關,絕對值越大相關性越強。
r-squared,r平方,也叫決定係數(coefficient of determination)可以反映模型有多大程度是自變數導致因變數的改變,以此判斷統計模型的解釋力: r2=
ssrs
st=∑
(y^i
−y‾)
2∑(y
i−y‾
)2
r^2 = \frac = \frac
r2=sst
ssr
=∑(y
i−y
)2∑
(y^
i−y
)2
上式中的ssr是回歸平方和,sst是總平方和。對於簡單的線性回歸來說,決定係數為樣本相關係數(皮爾遜相關係數)的平方,當加入其他回歸自變數後,決定係數就相應變成多重相關係數的平方。
adjusted r-squared,校正r平方。在r平方中,它描述的是輸入變數對輸出變數的解釋程度,在單變數線性回歸中,r平方越大擬合程度越好。可是一旦引入更多的變數,不論增加的變數是否和輸出變數存在關係,r平方都會增加,所以這時候就需要校正r平方了。它主要做了一件事,對那些增加的且不會改善模型效果的變數增加了乙個懲罰項,這樣,如果加入的無關變數越多,校正r平方就會下降,而如果加入了顯著相關的變數,就會提高。因此,一般來說,對單變數線性回歸會採取r平方,對多變數的情況則使用校正r平方。
除此之外,在檢驗模型過程中還會看到p值、t值、f值,這些和假設檢驗有關,這裡不細說。
總結一下,在對機器學習模型進行評價的過程中,會有很多指標可以參考,我這裡大致上分為三個部分,首先是根據模型是回歸模型(mse、mise)還是分類模型(準確率、精確率),具有不同的評價指標,假如是線性回歸模型,我們進一步的會有一些線性回歸相關的指標(r平方、相關係數),最後,基於假設檢驗,又會有相關的指標(t值、p值),了解這些指標最重要的不是背公式,而是在遇到這些指標的時候能夠知道它們描述的是什麼就夠了。
想瀏覽更多關於數學、機器學習、深度學習的內容,可瀏覽本人部落格
回歸模型評價指標
回歸模型應用場景 趨勢分析 投資風險分析等 1 mae mean absolute error 平均絕對差值 2 mse mean square error 均方誤差,是回歸任務最常用的效能度量,最小二乘估計也是使用均方誤差 3 log對數損失函式 邏輯回歸 交叉熵損失,其實是由最大似然估計推導而來...
Python 線性回歸分析以及評價指標
利用 diabetes資料集來學習線性回歸 diabetes 是乙個關於糖尿病的資料集,該資料集包括442個病人的生理資料及一年以後的病情發展情況。資料集中的特徵值總共10項,如下 年齡 性別 體質指數 血壓 s1,s2,s3,s4,s4,s6 六種血清的化驗資料 但請注意,以上的資料是經過特殊處理...
線性回歸模型 線性回歸模型
回歸的思想和分類有所不一樣,分類輸出的結果為離散的值,回歸輸出的是乙個連續型的值。線性回歸的思想就是試圖找到乙個多元的線性函式 當輸入一組特徵 也就是變數x 的時候,模型輸出乙個 值y h x 我們要求這個 值盡可能的準確,那麼怎麼樣才能做到盡可能準確呢?其中 表示實際值,表示 值 其中 表示實際值...