R語言利用caret包比較模型效能差異

2021-08-02 09:00:26 字數 2119 閱讀 7703

說明

我們可以通過重取樣的方法得對每乙個匹配模型的統計資訊,包括roc曲線,靈敏度與特異度,然後基於這些統計資訊來比較不同模型的效能差異。

操作利用上節的資訊,準備好glm分類模型,svm分類模型,rpart分類模型,並存放在glm.model,svm.model,rpart.model。

cv.values = resamples(list(glm = glm.model,svm =svm.model,rpart = rpart.model))

> summary(cv.values)

call:

summary.resamples(object = cv.values)

models: glm, svm, rpart

number of resamples: 30

roc

min. 1st qu. median mean 3rd qu. max. na's

glm 0.7597790

0.7927740

0.8040455

0.8106454

0.8347961

0.8760824

0svm 0.8191998

0.8786439

0.8945208

0.8947360

0.9196775

0.9562556

0rpart 0.6064540

0.7150320

0.7608241

0.7556544

0.8086731

0.8554750

0sens

min. 1st qu. median mean 3rd qu. max. na's

glm 0.08823529

0.1764706

0.2058824

0.2124930

0.2516807

0.3235294

0svm 0.44117647

0.5294118

0.5882353

0.5956863

0.6470588

0.7941176

0rpart 0.20000000

0.4117647

0.4705882

0.4787955

0.5514706

0.7352941

0spec

min. 1st qu. median mean 3rd qu. max. na's

glm 0.9393939

0.9645119

0.9721581

0.9702721

0.9796954

0.9898477

0svm 0.9494949

0.9695431

0.9771574

0.9755004

0.9847716

0.9898990

0rpart 0.9492386

0.9746193

0.9796954

0.9780359

0.9848485

1.0000000

0

使用dotplot函式繪製重取樣在roc曲線度量中的結果:

使用箱線圖繪製重取樣結果:

重取樣結果箱線圖

說明我們使用resample函式生成各個模型的統計資訊,再呼叫summary函式輸出三個模型在roc、靈敏度及特異性上的統計資訊。使用dotplot方法處理重取樣結果來觀測不同模型roc差異,最後,採用箱線圖在同一張圖上對roc、靈敏度及特異方面的差別進行比較。

r語言安裝r包

cran,bioconductor還有github。bioconductor一般都是生物資訊方面的r包。github是 的託管平台,很多軟體,多種語言的程式包也都在這裡發布。install.packages dyplr 注意 更改映象 options repos c cran options bio...

包r語言 R語言入門之R包的安裝

install.packages metafor 即可順利安裝該r包。install.packages biocmanager library biocmanager install edger 3 接下來便是安裝源自github 的r包了,它的步驟和安裝源自bioconductor的r包類似,需要...

利用R語言生成報告

開啟rstudio,新建 r markdown 填入報告的標題和作者,預設生成html網頁,也可以生產pdf,但是需要安裝別的軟體。生成word需要安裝office word。但是可以先生成html頁面,用瀏覽器開啟,然後儲存成pdf。點選ok後,會生成乙個檔案,裡面寫了一些內容,可以照著它裡面的改...