R語言回歸分析中的異常值點的介紹

2021-07-10 02:45:52 字數 1614 閱讀 7255

(1)離群點

如何識別離群點?

1、q-q圖,落在置信區間帶外的點即可被認為是離群點。

2、乙個粗糙的判斷準則:標準化殘差值大於2或者小於2的點可能是離群

3、library(car)

outliertest(fit)  顯示離群點

rstudent unadjusted p-value bonferonni p

nevada 3.542929         0.00095088     0.047544

(2)高槓桿值點

它們是由許多異常的**變數值組合起來的,與響應變數值沒有關係

高槓桿值的觀測點可通過帽子統計量(hat statistic)判斷

(3)強影響點

強影響點,即對模型引數估計值影響有些比例失衡的點。例如,若移除模型的乙個觀測點時模型會發生巨大的改變,那麼你就需要檢測一下資料中是否存在強影響點了

4、如何對線性模型進行改進?

1、刪除觀測點;

刪除離群點通常可以提高資料集對於正態假設的擬合度,而強影響點會干擾結果,通常也會被刪除。刪除最大的離群點或者強影響點後,模型需要重新擬合

2、變數變換:

box-cox正態變換

library(car)

summary(powertransform(states$murder))

library(car)

boxtidwell(murder ~ population + illiteracy, data = states)

3、新增或刪除變數;

4、使用其他回歸方法。

R語言學習筆記 簡單的回歸分析

fitbit date cal step dist floor sit inactive walk run 2014年1月1日 2496 12803 9.14 15 1161 123 98 58 2014年1月2日 2513 12955 9.47 12 1188 112 67 73 2014年1月3...

回歸分析中的「回歸」的理解

出自高爾頓種豆子的實驗,通過大量資料統計,他發現個體小的豆子往往傾向於產生比其更大的子代,而個體大的豆子則傾向於產生比其小的子代,然後高爾頓認為這是由於新個體在向這種豆子的平均尺寸 回歸 大概的意思就是事物總是傾向於朝著某種 平均 發展,也可以說是回歸於事物本來的面目 回歸這個詞應該是直譯過來的,題...

機器學習演算法 基於R語言的多元線性回歸分析

多元線性回歸的適用條件 1 自變數對應變數的變化具有顯著影響 2 自變數與應變數間的線性相關必須是真實的,而非形式上的 3 自變數之間需有一定的互斥性 4 應具有完整的統計資料 訓練資料 csv格式,含有19維特徵 步驟一 資料讀取及預處理 從vt.csv檔案中讀取訓練資料,從 rm list ls...