R教材11 2 隨機森林與支援向量機

2021-08-30 06:44:27 字數 875 閱讀 1670

隨機森林是組成式監督學習演算法,同時使用多個**模型,將模型的結果彙總以提公升分類準確率;對樣本單元和屬性進行抽樣,產生大量的決策樹,再對檢驗的樣本單元進行依次分類,從而得到未知樣本單元的類

演算法:訓練集中有n個樣本單元,m個變數

從訓練集中隨機有放回的抽取n個樣本單元

對於抽取出的訓練集,對每個節點隨機抽取m完整生成決策樹,不用剪枝,最小節點可以為1,設定葉節點的型別

將新的樣本單元用所有樹進行分類,多數類別為該樣本單元的類別

在無法獲得檢驗集時,生成森林時沒用到的樣本點可以用來檢驗,即袋外**oob

randomforest::randomforest()生成隨機森林,預設生成500個樹,每個節點抽取sqrt(m)個變數,最小節點為1

randomforest(formula,data,na.action=na.roughfix,importance=t)

na.action=na.roughfix,將數值變數中的缺失值替換為對應列的中位數或類別變數的缺失值替換成對應列的多數類(相同數量隨機取)

importance=t,隨機森林可度量變數重要性,importance(fit,type=2)返回變數的不純性的gini指數減少量的所有樹的均值

predict(fit,data)驗證集,分類時剔除有缺失值的單元

決策樹的特點

優點:可計算袋外**誤差和度量變數重要性,分類的準確性更高,可處理大規模問題(大量缺失值資料或變數數遠多於樣本單元量的資料)

缺點:那以表達森林,儲存整個隨機森林以對新樣本單元分類

演算法:多維空間中找到乙個能將全部樣本單元分為兩類的最優超平面,使兩類中距離最近的點的到超平面的距離盡可能大,間距邊界上的點為支援向量,超平面在間距的中間

n維空間(n個變數)的超平面為n-1維

隨機森林(R)

random forest install.packages randomforest library randomforest data iris attach iris table iris species class as.factor iris species 描述 biplot princ...

R語言 隨機森林演算法

在隨機森林方法中,建立大量的決策樹。每個觀察被饋入每個決策樹。每個觀察的最常見的結果被用作最終輸出。新的觀察結果被饋入所有的樹並且對每個分類模型取多數投票。對構建樹時未使用的情況進行錯誤估計。這稱為oob 袋外 誤差估計,其被提及為百分比。r語言包 randomforest 用於建立隨機森林。安裝r...

R語言 訓練隨機森林模型

隨機森林演算法涉及對樣本單元和變數進行抽樣,從而生成大量決策樹。對於每個樣本單元,所有決策樹依次對其進行分類,所有決策樹 類別中的眾數類別即為隨機森林所 的這一樣本單元的類別。假設訓練集中共有n個樣本單元,m個變數,則隨機森林演算法如下 1 從訓練集中隨機有放回地抽取n個樣本單元,生成大量決策樹 2...