4.16 對第3章思考與練習中第11題做異常值檢驗。
研究貨運總量y(萬噸)與工業總產值x1(億元)、農業總產值x2(億元)、居民非商品支出x3(億元)的關係。
解:(1)建立y與x1,x2,x3的三元回歸方程,分別計算普通殘差,學生化殘差,刪除殘差,刪除學生化殘差,中心化槓桿值,庫克距離。
# 第1次異常值檢驗 -----
data3.11
'd:/rwork/應用回歸/習題資料/表3-9.csv'
,head=
true
)attach(data3.11
)#將該資料框新增到r的搜尋路徑,以便於下面直接使用資料框中的陣列x和y
lm3.11
)#建立回歸方程
summary(lm3.11
)# 得到y^=-348.280+3.754x1+7.101x2+12.447x3,σ^=23.44
e )#普通殘差ei
zre
23.44
#計算標準化殘差,zre=e/σ^,σ^=23.44
sre
)#計算學生化殘差,sre=e/(σ^*sqrt(1-hii))
sre_drop
)#計算刪除學生化殘差sre(i)
hii
)#計算槓桿值
d )#計算庫克距離
# 槓桿值hii的平均值meanh=sum(hii)/n=(p+1)/n=0.4
result4.16
result4.16
detach(data3.11
)#與attach()相對應,將資料框從搜尋路徑中移除
由異常值檢驗結果可以看到,絕對值最大的學生化殘差為sre6=2.116<3,因而根據學生化殘差診斷認為資料不存在異常值。絕對值最大的刪除學生化殘差為sre(6)=3.832>3,因而根據刪除學生化殘差診斷認為第6個資料為異常值。其槓桿值為h6=0.742位居第一,庫克距離d6=3.216位居第一。由於h6=0.742>2meanh,因而從槓桿值看第6個資料是自變數的異常值,同時庫克距離d6=3.216>1,這樣第6個資料為異常值是由自變數異常與因變數異常兩個原因共同引起的。
(2)刪除第6組資料,重新做回歸分析並進行異常值檢驗。
# 第2次異常值檢驗 -----
data3.11_drop6
[c(-6)
,]attach(data3.11_drop6)
#將該資料框新增到r的搜尋路徑,以便於下面直接使用資料框中的陣列x和y
lm3.11_drop6
#建立回歸方程
summary(lm3.11_drop6)
# 得到y^_new=-659.510+4.070x1+16.043x2-14.359x3,σ^=12.94
e_new
#普通殘差ei
zre_new
12.94
#計算標準化殘差,zre=e/σ^,σ^=12.94
sre_new
#計算學生化殘差,sre=e/(σ^*sqrt(1-hii))
sre_drop_new
#計算刪除學生化殘差sre(i)
hii_new
#計算槓桿值
d_new
#計算庫克距離
# 槓桿值hii_new的平均值meanh_new=sum(hii_new)/n_new=(p+1)/n_new=0.44
result4.16_drop6
result4.16_drop6
detach(data3.11_drop6)
#與attach()相對應,將資料框從搜尋路徑中移除
由異常值檢驗結果可以看到,絕對值最大的學生化殘差為sre5=1.534<3,因而根據學生化殘差診斷認為資料不存在異常值。絕對值最大的刪除學生化殘差為sre(5)=1.886<3,因而根據刪除學生化殘差診斷認為資料不存在異常值。刪除第六組資料後,發現學生化殘差的絕對值和刪除化學生殘差絕對值均小於3,庫克距離均小於1,槓桿值的最大值為0.728<2meanh=0.88,說明資料不再有異常值。
所以可判斷異常值的原因是由於資料登記或實際問題有突變引起的。
R語言之基本資料型別
1.vector 所有的元素必須是同一型別。例如下面的 建立了2個vectors.name c mike lucy john age c 20,25,30 2.array matrix matrix是一種特殊的vector。maxtrix是乙個擁有兩個額外屬性的vector 行數和列數。x matr...
R語言之簡單的資料分析
1.hist 直方圖 v read.csv data 顯示資料 hist v x1,col 1 7 有顏色 hist v x2,2.plot 散點圖 r中最強大的繪圖函式 plot v x1,v x2 3.table 列聯表函式 library openxlsx d2.1 read.xlsx dat...
Python和R語言之間的抉擇(二)
在前面的文章中我們給大家簡單介紹了一下對於python與r兩門語言的選擇。一般來說,資料分析中對於這兩門語言都是比較重視的,如果學會了這兩門語言那麼就能夠做好資料分析工作,從而成為高階資料分析師。但是畢竟人的精力是有限的,短時間內不可能都掌握好這兩門語言,所以我們通過給大家介紹一下這兩門語言給大家乙...