在之前的文章《bagging 或boosting讓你的模型更加優化》中,我們介紹了可以通過bagging或boosting技術,使得模型更加穩定和準確率更高,那麼今天要介紹的隨機森林演算法,本身的演算法邏輯已經使用了bagging技術,來構建多棵樹,最終實現構建「森林」的目的。
首先我們先來了解下這個演算法,記住幾個要點就可以:
1.在ibm spss modeler中,隨機森林構建的每棵樹,使用的演算法是c&rt,關於c&rt演算法的介紹可以參考之前的文章《ibm spss modeler演算法系列------c&r tree演算法介紹》;
2.使用bagging,每構建一棵樹,都是通過隨機選擇樣本資料來構建(有放回的);
3.除了使用bagging技術,對使用的輸入指標,也隨機選擇。比如說一共有20個輸入指標,每選完一次樣本資料後,會再隨機選擇其中的10個指標來構建樹。
4.最終的**結果,會綜合前面構建的決策樹通過投票的方式得到最終的**結果,如果是數值型的**,則是取平均值做為最終的**結果。
5.在ibm spss modeler中,隨機森林演算法不僅支援傳統的關係型資料庫,比如db2、oracle、sql server等通過odbc可連線的資料庫,也支援haoop分布式架構的資料,它可以生成mapreduce或者spark,放到hadoop平台上去執行,從而提公升整個計算效率。
那麼接下來,我們來看下在ibm spss modeler的隨機森林演算法實現客戶的流失**,能給我們呈現出什麼樣的結果。
首先,我們建立資料流檔案 ,如下圖:
step1:連線資料來源excel檔案,檔案內容如下:
step2:型別節點設定影響因素及目標,如下圖:
step3:選擇隨機森林演算法,並使用預設引數設定生成模型。
該面板主要涉及到模型構建和樹增長兩方面的引數,包括以下內容:
在高階面板中,考慮到對樣本資料選擇的質量要求,該演算法也涵蓋了資料準備的內容。
資料準備可設定的引數包括:
step4:生成客戶流失分析模型。
在生成的模型結果裡面,會包括對輸入指標的重要性排序,如下圖:
模型結果中,也會包含在生成的這些樹中,最頻繁出現的規則集,包括決策規則內容、類別、準確性等內容。這些規則集可以協助我們做一些業務解讀。
step5:可以通過**檢視**結果。
step6:通過分析節點檢視模型準確率。
IBM SPSS Modeler 5 關聯分析
本實驗是基於關聯和決策樹在資料探勘中的應用。通過該實驗,能夠客觀實際地理解關聯分析和決策樹的相關知識。首先進行的是關聯分析,之後利用關聯分析的資料建立乙個決策樹。1 開啟並檢視資料檔案。利用 可變檔案 節點將 demos 下的 baskets1n 新增節點中。然後使用 輸出 選項卡下的 表 檢視資料...
IBM SPSS Modeler資料庫內建模
ibm spss modeler server支援對資料庫 商的資料探勘工具和建模工具進行整合,其中包括ibm netezza ibm db2 infosphere warehouse oracle data miner和microsoft analysis services。實現了在ibm sps...
IBM SPSS Modeler資料庫內建模
ibm spss modeler server支援對資料庫 商的資料探勘工具和建模工具進行整合,其中包括ibm netezza ibm db2 infosphere warehouse oracle data miner和microsoft analysis services。實現了在ibm sps...