caret包應用之二特徵選擇

在進行資料探勘時，我們並不需要將所有的自變數用來建模，而是從中選擇若干最重要的變數，這稱為特徵選擇（feature selection）。一種演算法就是後向選擇，即先將所有的變數都包括在模型中，然後計算其效能（如誤差、**精度）和變數重要排序，然後保留最重要的若干變數，再次計算效能，這樣反覆迭代，找出合適的自變數數目。這種演算法的乙個缺點在於可能會存在過度擬合，所以需要在此演算法外再套上乙個樣本劃分的迴圈。在caret包中的rfe命令可以完成這項任務。

首先定義幾個整數，程式必須測試這些數目的自變數.

subsets = c(20,30,40,50,60,70,80)

然後定義控制引數，functions是確定用什麼樣的模型進行自變數排序，本例選擇的模型是隨機森林即rffuncs，可以選擇的還有lmfuncs（線性回歸），nbfuncs（樸素貝葉斯），treebagfuncs（裝袋決策樹），caretfuncs（自定義的訓練模型）。

method是確定用什麼樣的抽樣方法，本例使用cv即交叉檢驗, 還有提公升boot以及留一交叉檢驗loocv

ctrl= rfecontrol(functions = rffuncs, method = "cv",verbose = false, returnresamp = "final")

最後使用rfe命令進行特徵選擇，計算量很大，這得花點時間

profile = rfe(newdata3, mdrrclass, sizes = subsets, rfecontrol = ctrl)

觀察結果選擇50個自變數時，其**精度最高

print(profile)

20 0.8200 0.6285 0.04072 0.08550

30 0.8200 0.6294 0.04868 0.10102

40 0.8295 0.6487 0.03608 0.07359

50 0.8313 0.6526 0.04257 0.08744 *

60 0.8277 0.6447 0.03477 0.07199

70 0.8276 0.6449 0.04074 0.08353

80 0.8275 0.6449 0.03991 0.08173

94 0.8313 0.6529 0.03899 0.08006

用圖形也可以觀察到同樣結果

plot(profile)

下面的命令則可以返回最終保留的自變數

profile$optvariables

caret包應用之二特徵選擇

caret包應用之二特徵選擇

《特徵工程三部曲》之二特徵選擇

Dubbo擴充套件點應用之二負載均衡

caret包應用之二 特徵選擇

caret包應用之二 特徵選擇

《特徵工程三部曲》之二 特徵選擇

Dubbo擴充套件點應用之二負載均衡

相關推薦

caret包應用之二特徵選擇

caret包應用之二特徵選擇

《特徵工程三部曲》之二特徵選擇