用R語言學習資料探勘 7 協方差和相關係數

2021-10-24 22:59:04 字數 1378 閱讀 5618

目錄

概念**

樣本協方差

相關係數

r分析

具體來講,樣本的協方差為:

隨機變數x和y的協方差用於度量x和y同時增大,或乙個增大乙個減少的程度,但是要想說明這兩個隨機變數的相關性高不高,用協方差是體現不出來的,所以要用到相關係數。相 關係數是乙個百分數。

相關係數的絕對值是大於等於0,小於等於1的數。

對於相關係數,我們從它的公式入手。一般情況下,相關係數的公式就是用x、y的協方差 除以x的標準差和y的標準差。

所以,相關係數也可以看成:一種剔除了兩個變數量綱影響、標準化後的特殊協方差。

標準差描述了變數在整體變化過程中偏離均值的幅度。協方差除以標準差,也就是把 協方差中變數變化幅度對協方差的影響剔除掉,這樣協方差也就標準化了,它反應的就是兩個變數每單位變化時的情況。這也就是相關係數的公式含義了。

既然相關係數是協方差除以標準差,那麼,當x或y的波動 幅度變大的時候,它們的協方差會變大,標準差也會變大,這樣相關係數的分子分母都變大,其實變大的趨勢會被抵消掉,變小時也亦然。

於是,很明顯的,相關係數不像協方差一樣可以在正無窮到負無窮間變化,它只能在+1 到-1之間變化如果求得兩個隨機變數x,y的相關係數為1時(100%),說明是完全相關的。但實際應用中,此值一般都是趨近於1。

cov( ):是求協方差函式

某種礦石有兩種有用成分 a,b。取10個樣本,每個樣本含a 的百分比(x%)和含b的百分比(y%)的資料如下:

x(%) 67 54 72 64 39 22 58 43 46 34

y(%) 24 15 23 19 16 11 20 16 17 13

求樣本資料的協方差和相關係數

用R語言學習資料探勘 8 一元線性回歸

若有如下資料 部分資料 做出散點圖直觀觀察 可以看出x和y基本符合乙個線性關係。我們可以認為y與x的關係基本上是線性的,而這些點與直線的偏離是由其他一切不確定因素的影響造成的,為此可以做如下假定 y 0 1x 其中,0 1x 表示y隨x的變化而線性變化的部分 是隨機誤差 它是其他一切不確定因素影響的...

《R語言資料探勘》 1 9 機器學習

1.9 機器學習 應用於機器學習演算法的資料集稱為訓練集,它由一組成對的資料 x,y 構成,稱為訓練樣本。成對的資料解釋如下 x 這是乙個值向量,通常稱為特徵向量。每個值或者特徵,要麼是分類變數 這些值來自一組離散值,比如 要麼是數值型。y 這是乙個標籤,表示x的分類或者回歸值。機器學習過程的目的就...

R語言學習 2 資料輸入

建立新的frame with no data just a model mydata data.frame var1 numeric 0 var2 charactor 0 var3 numeric 0 data input function1 fix mydata function2 mydata ...