9 回歸中的相關度和決定係數

2021-08-30 17:57:05 字數 2229 閱讀 8125

訓練集中可能有若干維度的特徵。但有時並不是所有特徵都是有用的,有的特徵其實和結果並沒有關係。因此需要乙個能衡量自變數和因變數之間的相關度。

皮爾遜相關係數(pearson correlation coefficient),是用於度量兩個變數 x 和 y 之間的相關(線性相關),其值介於 -1 與 1 之間。

在說皮爾遜相關係數之前,要先理解協方差(covariance) ,協方差是乙個反映兩個隨機變數相關程度的指標,如果乙個變數跟隨著另乙個變數同時變大或者變小,那麼這兩個變數的協方差就是正值,反之相反,公式如下:

var_x=0 #x的方差

var_y=0 #y的方差

for xi,yi in zip(x,y):

diff_x=xi-x_mean

diff_y=yi-y_mean

fenzi+=diff_x*diff_y

var_x+=diff_x**2

var_y+=diff_y**2

fenmu=math.sqrt(var_x*var_y)

return fenzi/fenmu

train_x=[1,3,8,7,9]

train_y=[10,12,24,21,34]

print(computercorrelation(train_x,train_y))

決定係數即 r 平方值,反應因變數的全部變異能通過回歸關係被自變數解釋的比例。如r平方為0.8,則表示回歸關係可以解釋因變數80%的變異。換句話說,如果我們能控制自變數不變,則因變數的變異程度會減少 80%。 在簡單線性回歸中,絕對係數可以是r^2 = r * r。而更通用的是:

train_x_2d = [[x] for x in train_x] # 通用的方式,訓練集至少是二維的

train_y=[10,12,24,21,34]

print(polyfit(train_x_2d,train_y))

r 平方也有其侷限性,隨著自變數數目的增加,r 方是會增加的,這部分的定理是:

證明過程這裡就省略了。

調整後的r方表示為:

其中,n 表示樣本大小,p 表示模型中解釋變數的總數(個人理解為x的維度)(不包括常數)。

回歸中的相關度和R平方值(麥子學院)

皮爾遜相關係數 pearson correlation coefficient 1.1 衡量兩個值線性相關強度的量 1.2 取值範圍 1,1 正向相關 0,負向相關 0,無相關性 0 1.3計算方法舉例 x y 1 10 3 12 8 24 7 21 9 34 其他例子 r平方值 4.1定義 決定係...

回歸中的相關度和R平方值 學習筆記

1.相關度 相關度又叫 皮爾遜相關係數 pearson correlation coefficient 2.r平方值 模型可以解釋為多大程度是自變數導致因變數的改變 簡單線性回歸 r 2 r r 多元線性回歸 r平方也有其侷限性 r平方隨著自變數的增加會變大,r平方和樣本量是有關係的。因此,我們要到...

機器學習 回歸中的相關度和R平方值

1.皮爾遜相關係數 pearson correlation coefficient 1.1 衡量兩個值線性相關強度的量 1.2 取值範圍 1,1 正相關 0,負相關 0,無相關 0 1.3 要理解pearson相關係數,首先要理解協方差 covariance 協方差是乙個反映兩個隨機變數相關程度的指...