本節內容:
0:小知識
1:新資料要如何進行分析
2:第二步驟:理解資料
4:特殊點
0.1:我們說對分析乙個資料一般是分步驟的:那麼我們可以對其中的步驟進行打標籤,也就是跟書籤一樣。
ctrl+shift+r
0.2: 將圖形賦值乙個變數後,這個變數其中會有圖形的一些資訊如y軸x軸頻數等資訊
plot_draw = plot(,,,,)
0.3:如何檢視r的新包 登入r官網-->
統計量:summary(energraw) names(energraw) str(energraw)
視覺化:對y的變數進行直方圖、箱線圖
3.1:乙個乙個的做plot
plot(ozone,temp,col="tomato",main = "temp & ozone")plot(temp~ozone,data = airquality)
abline(lm(temp~ozone,data = airquality))
#新增擬合線 系統對y和x做出的解釋是怎麼樣的
library(kernlab) ##要使用corrgram 需要安裝mvtnorm,kernlab
#偏相關 我們在研究x1和x2的相關時候,可能會被x3或者其他的變數#影響到我們對x1和x2的相關係數 ,所以需要對其他的變數進行控制
#控制其他的變數他的影響為0的情況下,x1和x2的相關係數
qq = na.omit(airquality)cc = cor(qq)
library(igraph)
library(ggm)
ccpcor(c(1,2,3,5,6),cc) ##0.3523451 控制其他變數得出的相關
4.1 設定訓練集 和測試集 兩種方式
#第一種方式qq = na.omit(airquality)
train_number = sample(1:nrow(qq),nrow(qq)*0.8)
train = qq[train_number,]
test = qq[-train_number,]
nrow(test) ##22
nrow(train) ##88
##第二種方式
4.2 資料建模,一元線性回歸
with(train,plot(temp,ozone)) ##可以畫出大概的散點圖runif = lm(train$temp~train$ozone,data = train)
runif
summary(runif) ##看模型好不一般我們看r方
4.1 離群點判別方法三種
1:做boxplot圖
2:學生化殘差(studentized residual)
因為該經理想要通過線性回歸,來回答廣告、定價和銷量是否相關的問題,我們也可以通過回歸的殘差尋找「銷量」的特異值。學生化殘差是一種標準化的殘差,它可以告訴我們哪些資料點的殘差較大,超過±3的學生化殘差可以被看作可能的離群值。在r軟體中,可以使用rstudent()命令計算學生化殘差。
3:
library(car)outliertest(runif)
R語言線性模型glm logistic回歸模型
r語言廣義線性模型glm 函式 glm formula,family family.generator,data,control list formula資料關係,如y x1 x2 x3 family 每一種響應分布 指數分布族 允許各種關聯函式將均值和線性 器關聯起來。常用的family bino...
線性回歸模型 線性回歸模型
回歸的思想和分類有所不一樣,分類輸出的結果為離散的值,回歸輸出的是乙個連續型的值。線性回歸的思想就是試圖找到乙個多元的線性函式 當輸入一組特徵 也就是變數x 的時候,模型輸出乙個 值y h x 我們要求這個 值盡可能的準確,那麼怎麼樣才能做到盡可能準確呢?其中 表示實際值,表示 值 其中 表示實際值...
R語言線性回歸
線性回歸模型 線性回歸模型的計算 lm 可以完成多元線性回歸函式的估計,回歸系統與回歸方程的檢驗的工作 summary 函式,返回列表內容 x1表示體重,x2表示年齡,y表示對應體重與年齡下的血壓 blood data frame x1 c 76.0,91.5,85.5,82.5,79.0,80.5...