整合學習通過構造並結合多個學習器來完成學習任務
原理: 先產生一組「個體學習器」,在用某種策略將它們結合起來
bagging:是投票式演算法,首先使用bootstrap產生不同的訓練集資料集,然後分別基於這些訓練資料及得到多個基礎分類器,最後組合基礎分類器的分類結果得到乙個相對更優的**模型。bagging演算法的優點在於它是乙個容易理解、易於實現且功能強大的學習演算法,但得到的結果很難解釋則是該演算法的主要缺點。(運算速度慢)
隨機森林:是bagging的乙個擴充套件變體,隨機森林在以決策樹為基學習器構造bagging整合的基礎上,進一步在決策樹的訓練過程中引入了隨機屬性選擇。因此,不但樣本是隨機的,就連每個節點變數的產生都有相當大的隨機性。若是分類問題,則輸出為所有書中**概率總和最大的那個類,若是回歸問題,則輸出為所有樹的輸出平均值。
引數說明:
bagging(formula, data, mfinal = 100, control, par=false,...)
mfinal: 為演算法的迭代次數,即基的分類器的個數
-----------------------------隨機森林---------------------------------------------
在隨機森林中有importance和varimpplot兩個函式用來評估,每個屬性的重要性,其中importance函式以列表展示模型中每個屬性的重要性,varimpplot函式可以通過繪製平均精確率下降及平均基尼下降曲線實現屬性重要性的視覺化
**:
# 整合學習
library(adabag)
bagging.model <- bagging(species ~ ., data = iris, mfinal = 50)
boosting.model <- boosting(species ~ ., data = iris, mfinal = 50)
# 隨機森林
library(randomforest)
randomforest.model <- randomforest(species ~ ., data = iris)
# 構建result,存放**結果
result <- data.frame(arithmetic = c('bagging', 'boosting', '隨機森林'), erriris = rep(0, 3))
for (i in 1:3)
《R語言資料探勘》 1 12 資料整合
1.12 資料整合 資料整合將多個資料來源中的資料合併,形成乙個一致的資料儲存。其常見的問題如下 異構資料 這沒有普遍的解決方案。不同的定義 different definition 這是內在的,即相同的資料具有不同的定義,如不同的資料庫模式。時間一致性 這可以檢查資料是否在相同的時間段收集。舊資料...
R語言學習
sd計算樣本的標準差 var計算樣本的方差 cor計算兩個變數間的相關係數 cov計算兩變數間的協方差 使用函式library或者函式require把需要的r包載入r中 library函式中的r包名不需要用雙引號括起來。detach package mass 函式會解除安裝當前已載入的r包。呼叫其他...
R語言學習
隨著大資料和雲計算快速發展,對資料分析提出了更高的要求。r語言就是乙個相對簡單運用廣泛的統計分析語言工具。r語言以簡潔著稱,一行 就可以繪製一幅圖。例如,我們需要繪製乙個全班男女生佔比圖,男生24個,女生16個。pie c 24,16 c 男生 60 女生 40 main 全班男女生佔比圖 col ...