R語言之違背基本假設的幾種情況xt4 16

2021-10-10 07:23:09 字數 2201 閱讀 3408

4.16 對第3章思考與練習中第11題做異常值檢驗。

研究貨運總量y(萬噸)與工業總產值x1(億元)、農業總產值x2(億元)、居民非商品支出x3(億元)的關係。

解:(1)建立y與x1,x2,x3的三元回歸方程,分別計算普通殘差,學生化殘差,刪除殘差,刪除學生化殘差,中心化槓桿值,庫克距離。

# 第1次異常值檢驗 -----

data3.11

'd:/rwork/應用回歸/習題資料/表3-9.csv'

,head=

true

)attach(data3.11

)#將該資料框新增到r的搜尋路徑,以便於下面直接使用資料框中的陣列x和y

lm3.11

)#建立回歸方程

summary(lm3.11

)# 得到y^=-348.280+3.754x1+7.101x2+12.447x3,σ^=23.44

e )#普通殘差ei

zre

23.44

#計算標準化殘差,zre=e/σ^,σ^=23.44

sre

)#計算學生化殘差,sre=e/(σ^*sqrt(1-hii))

sre_drop

)#計算刪除學生化殘差sre(i)

hii

)#計算槓桿值

d )#計算庫克距離

# 槓桿值hii的平均值meanh=sum(hii)/n=(p+1)/n=0.4

result4.16

result4.16

detach(data3.11

)#與attach()相對應,將資料框從搜尋路徑中移除

由異常值檢驗結果可以看到,絕對值最大的學生化殘差為sre6=2.116<3,因而根據學生化殘差診斷認為資料不存在異常值。絕對值最大的刪除學生化殘差為sre(6)=3.832>3,因而根據刪除學生化殘差診斷認為第6個資料為異常值。其槓桿值為h6=0.742位居第一,庫克距離d6=3.216位居第一。由於h6=0.742>2meanh,因而從槓桿值看第6個資料是自變數的異常值,同時庫克距離d6=3.216>1,這樣第6個資料為異常值是由自變數異常與因變數異常兩個原因共同引起的。

(2)刪除第6組資料,重新做回歸分析並進行異常值檢驗。

# 第2次異常值檢驗 -----

data3.11_drop6

[c(-6)

,]attach(data3.11_drop6)

#將該資料框新增到r的搜尋路徑,以便於下面直接使用資料框中的陣列x和y

lm3.11_drop6

#建立回歸方程

summary(lm3.11_drop6)

# 得到y^_new=-659.510+4.070x1+16.043x2-14.359x3,σ^=12.94

e_new

#普通殘差ei

zre_new

12.94

#計算標準化殘差,zre=e/σ^,σ^=12.94

sre_new

#計算學生化殘差,sre=e/(σ^*sqrt(1-hii))

sre_drop_new

#計算刪除學生化殘差sre(i)

hii_new

#計算槓桿值

d_new

#計算庫克距離

# 槓桿值hii_new的平均值meanh_new=sum(hii_new)/n_new=(p+1)/n_new=0.44

result4.16_drop6

result4.16_drop6

detach(data3.11_drop6)

#與attach()相對應,將資料框從搜尋路徑中移除

由異常值檢驗結果可以看到,絕對值最大的學生化殘差為sre5=1.534<3,因而根據學生化殘差診斷認為資料不存在異常值。絕對值最大的刪除學生化殘差為sre(5)=1.886<3,因而根據刪除學生化殘差診斷認為資料不存在異常值。刪除第六組資料後,發現學生化殘差的絕對值和刪除化學生殘差絕對值均小於3,庫克距離均小於1,槓桿值的最大值為0.728<2meanh=0.88,說明資料不再有異常值。

所以可判斷異常值的原因是由於資料登記或實際問題有突變引起的。

R語言之基本資料型別

1.vector 所有的元素必須是同一型別。例如下面的 建立了2個vectors.name c mike lucy john age c 20,25,30 2.array matrix matrix是一種特殊的vector。maxtrix是乙個擁有兩個額外屬性的vector 行數和列數。x matr...

R語言之簡單的資料分析

1.hist 直方圖 v read.csv data 顯示資料 hist v x1,col 1 7 有顏色 hist v x2,2.plot 散點圖 r中最強大的繪圖函式 plot v x1,v x2 3.table 列聯表函式 library openxlsx d2.1 read.xlsx dat...

Python和R語言之間的抉擇(二)

在前面的文章中我們給大家簡單介紹了一下對於python與r兩門語言的選擇。一般來說,資料分析中對於這兩門語言都是比較重視的,如果學會了這兩門語言那麼就能夠做好資料分析工作,從而成為高階資料分析師。但是畢竟人的精力是有限的,短時間內不可能都掌握好這兩門語言,所以我們通過給大家介紹一下這兩門語言給大家乙...