隨機森林引數:
1、 mtry節點值,可確定每次迭代的變數抽樣數值,用於二叉樹的變數個數
(1)一般可預設為2。
(2)改為資料集變數個數的二次方根(分類模型)或三分之一(回歸模型)。
(3)實際可以for迴圈找到最佳
2、ntree指定隨機森林所包含的決策樹數目,預設為500;最好在確定mtry之後,帶入嘗試,取使模型內誤差基本穩定的最小值。
參考:
library(randomforest)
library(ggplot2)
library("caret")
#獲取當前工作路徑
#getwd()
#設定工作路徑
#setwd('d:')
data.all
#轉換y,分類問題
data.all$y
set.seed(9)
#七三分樣本
ind = sample(2,nrow(data.all),replace = true,prob = c(0.7,0.3))
train = data.all[ind == 1,]
test = data.all[ind == 2,]
#尋找最優mtry
R語言 隨機森林演算法
在隨機森林方法中,建立大量的決策樹。每個觀察被饋入每個決策樹。每個觀察的最常見的結果被用作最終輸出。新的觀察結果被饋入所有的樹並且對每個分類模型取多數投票。對構建樹時未使用的情況進行錯誤估計。這稱為oob 袋外 誤差估計,其被提及為百分比。r語言包 randomforest 用於建立隨機森林。安裝r...
隨機森林(R)
random forest install.packages randomforest library randomforest data iris attach iris table iris species class as.factor iris species 描述 biplot princ...
R語言 訓練隨機森林模型
隨機森林演算法涉及對樣本單元和變數進行抽樣,從而生成大量決策樹。對於每個樣本單元,所有決策樹依次對其進行分類,所有決策樹 類別中的眾數類別即為隨機森林所 的這一樣本單元的類別。假設訓練集中共有n個樣本單元,m個變數,則隨機森林演算法如下 1 從訓練集中隨機有放回地抽取n個樣本單元,生成大量決策樹 2...