ISLR學習筆記(1)統計學習簡介

2022-08-24 12:48:16 字數 2053 閱讀 7570

前言

第二章理解

第二章主要是簡單的介紹了書的背景,主要強調在統計學習中並沒有免費的午餐,沒有一種方法適用於所有的問題,所以才要學習各種統計學習方法,目的針對實際問題找到適合的統計學習方法。

準確性與解釋性

在統計學習中,我們的目的有的時候是為了觀察某一變數的影響,這時候我們更需要方法的解釋性,例如:利用線性模型,雖然一般不能準確目標數值,但很容易得知是正相關還是負相關。而****變化趨勢等問題,我們並不想知道市場各種因素對於**是如何影響的,我們就像知道是漲還是跌,這時候更需要方法的準確性。

方差與偏差

e(y0-f^(x0))2=var(f^(x0))+[bias(f^(x0))]2+var(ϵ)

這個公式是這一章節最重要的公式了。公式求出了測試集的均方誤差(mse),mse也是評判方法好壞的標準之一,mse越小,方法越準確。

公式中第一項是**的方差,表示了如果我們更換乙個訓練集,**函式f(x)的變化程度,一般來說,自由度越高的方法具有越大的方差;第二項是**的偏差,一般來講,自由度越高的方法具有越小的偏差;最後一項是不可消除偏差。

紅色的曲線代表了mse,橘黃色曲線代表方差,藍色的曲線代表偏差,水平虛線代表了不可消除偏差,豎直虛線代表了模型實際的自由度。

r語言應用

首先設定工作路徑

>getwd()  #查詢工作路徑

[1] "

/home/bit_hammer

"> setwd("

/home/bit_hammer/desktop/islr

") #設定工作路徑

> auto = read.table("

auto.data

", header=t, na.string="

?")

header = t表示讀入表頭 

na.string="?"表示空資料用?表示

>fix(auto) #顯示auto

>dim(auto) #auto維度

[1] 397

9> auto[1:4

,] #顯示auto前四行,注意r語言遍歷從1開始

mpg cylinders displacement horsepower weight acceleration year origin name118

8307

1303504

12.0701

chevrolet chevelle malibu215

8350

1653693

11.5

701 buick skylark 320318

8318

1503436

11.0701

plymouth satellite416

8304

1503433

12.0701

amc rebel sst

> auto =na.omit(auto) # 忽略空資料所在行

>dim(auto)

[1] 392

9

plot()函式可以繪製散點圖和箱線圖 

identify()函式可以標記散點圖中的點資訊 

plot(displacement, mpg, col = "green", xlab = "displacement", ylab = "mpg")

hist()函式可以繪製直方圖 

hist(mpg, col =2, breaks = 15)

pairs()函式可以繪製散點圖矩陣 

pairs(~ mpg + displacement + horsepower + weight + acceleration)

ISLR 讀書筆記零 統計學習和ISLR簡介

islr簡介 後記統計學習 statistical learning 是一系列用來理解資料的方法。這些方法主要可以分為兩類 監督學習 supervised learning 非監督學習 unsupervised learning 監督學習,主要根據資料特徵,來進行 或者評估 而非監督學習,主要研究資...

R語言統計學習 1簡介

統計學習是指一組用於理解資料和建模的工具集。這些工具可分為有監督或無監督。1 監督學習 用於根據乙個或多個輸入 或估計輸出。常用於商業 醫學 天體物理學和公共政策等領域。2 無監督學習 有輸入變數,但沒有輸出變數,可以從這些資料中學習潛在關係和資料結構。以下簡單的用3個資料集來說明。我們希望了解雇員...

統計學習方法筆記1 統計學習方法概論

統計學習是關於計算機基於資料構建概率統計模型並運用模型對資料進行 與分析的一門學科。從資料出發,提取資料的特徵,抽象出資料的模型,發現資料中的知識,又回到對資料的分析與 中去。統計學習關於資料的基本假設是同類資料具有一定的統計規律性,這是統計學習的前提。這裡的同類資料是指具有某種共同性質的資料,例如...