統計好樣本集s,屬性集a,分別求出屬性集中每個屬性的資訊增益率,選中增益率最大的屬性p,假設p總有n種情況的取值(連續變數要離散化),那麼分別統計好第i種情況時樣本集si和除去p的屬性集pi,生成相對應的子樹。主要重點有:資訊增益率的計算、事後剪枝使用悲觀錯誤率衡量、樹的建造(分治思想)等。
1) 讀取檔案資訊,統計數目
2) 建立決策樹
3) 事後剪枝(採用悲觀錯誤率估算)
4) 輸出決策樹
5) 移除決策時
vectorattributes; 總的屬性列表,並不是屬性集,我的屬性集是用索引陣列;
bool* iscontinues;記錄哪個變數是否為連續性變數
vector* decisions;記錄屬性的取值情況
把檔案直接拖放到c4.5.exe上。
animals.csv的執行結果
credit.csv的執行結果
由於最近功課很多,時間不太夠,所以只實現了c4.5演算法。等考完試再把ripper也寫了吧,然後再交給老師您。
主要參考了
這個**和老師的課件。
資料探勘 C4 5演算法
c4.5演算法是機器學習和資料探勘領域中的一整套用於處理分類問題的演算法。該演算法是有監督學習型別的。計算公式 樣本資料 outlook temperature humidity windy playgolf?sunny 8585 false nosunny 8090 true noovercast...
資料探勘入門演算法C4 5
c4.5是在id3演算法的基礎上發展而來的,是對id3演算法的一種優化。其採用資訊增益率作為選擇 屬性的標準,而id3是以資訊增益為標準。這是根本的不同之處,也是優化所在。c4.5相對於id3的改進包括 通過資訊增益率選擇 屬性,克服了id3演算法中通過資訊增益傾向於選擇擁有多個屬性值的屬性作為 屬...
十大經典資料探勘演算法 C4 5
十大經典資料探勘演算法 系列 c4.5 k means svmapriori empagerank adaboost knnna ve bayes cart 決策樹 decision tree 演算法基於特徵屬性進行分類,其主要的優點 模型具有可讀性,計算量小,分類速度快。決策樹演算法包括了由qui...