本節內容是衡量線性回歸演算法的指標, 導圖如下:
這個這個mse還有乙個問題,就是量綱不同。資料集是用萬元做單位的,但是mse確實萬元的平方,顯然不同量綱。這個原理跟為什麼有了標準差,還要有方差是一樣的,都是為了統一量綱。
所以,我們的解決方法跟方差和標準差是一樣的,讓mse
去開方,得到rmse
:
另外還要一種很直白的方法,如下:
rmse和mae的量綱是一樣的,都是資料中y對應的量綱。他們的區別如下:
下面我們用真實的波士頓房價資料進行練習一下。 j
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(x,y,shuffle =666)
複製**
分離後:
前面提到的幾種評價標準,其實還存在乙個問題,那就是,不是採用平時的分類準確度標準,也就是,0 表示最差,1表示最好,然後演算法準確度的值在(0,1)之間,我們可以很方便的比較兩種演算法的優劣。舉個例子,演算法一我用房子大小做特性,演算法二我用房屋距市中心位置做特性,採用rmse或者mae計算後,無法衡量兩個演算法的優劣,因為乙個是面積,乙個是距離,不是同乙個東西。
因此,我們需要引入乙個新的指標:r squared
。
具體為:
為什麼說這個好呢?我們可以這麼想:
採用 進行**叫做baseline model(基類模型),它與x無關,所以它的誤差肯定是比較大的。
從而,我們可以對指標做這樣的理解:
接下來我們對r方的公式進行簡化:
接下來,我們用**來實現一下r square
:
然後,我們呼叫sklearn
封裝的方法試一下:
可以看到結果是一樣的~
ok,第二部分結束了,默默獎勵自己一顆糖果~~
線性回歸演算法
1 有監督學習 supervised learning 不僅把訓練資料丟給計算機,而且還把分類的結果 資料具有的標籤 也一併丟給計算機分析。計算機進行學習之後,再丟給它新的未知的資料,它也能計算出該資料導致各種結果的概率,給你乙個最接近正確的結果。由於計算機在學習的過程中不僅有訓練資料,而且有訓練結...
線性回歸演算法
什麼是線性回歸?統計學中,線性回歸 linear regression 是利用稱為線性回歸方程的最小平方函式對乙個或多個自變數和因變數之間關係進行建模的一種回歸分析。原理與推導 損失函式 loss function 是定義在單個樣本上的,算的是乙個樣本的誤差。代價函式 cost function 是...
線性回歸演算法
size in feet x price in 1000 s y 2104 4601416 2321534 315852 178m 訓練樣本的數目 例如上述 有四行就有4個樣本數目,有多少行就有多少樣本數目 x s 輸入變數或者目標變數 y s 輸出變數或者目標變數 x,y 則表示乙個訓練樣本 線性...