c4.5是一系列用在機器學習和資料探勘的分類問題中的演算法。它的目標是監督學習:給定乙個資料集,其中的每乙個元組都能用一組屬性值來描述,每乙個元組屬於乙個互斥的類別中的某一類。c4.5的目標是通過學習,找到乙個從屬性值到類別的對映關係,並且這個對映能用於對新的類別未知的實體進行分類。
由於id3演算法在實際應用中存在一些問題,於是quinlan提出了c4.5演算法,嚴格上說c4.5只能是id3的乙個改進演算法。
c4.5演算法繼承了id3演算法的優點,並在以下幾方面對id3演算法進行了改進:
1) 用資訊增益率來選擇屬性,克服了用資訊增益選擇屬性時偏向選擇取值多的屬性的不足;
2) 在樹構造過程中進行剪枝;
3) 能夠完成對連續屬性的離散化處理;
4) 能夠對不完整資料進行處理。
c4.5演算法有如下優點:產生的分類規則易於理解,準確率較高。其缺點是:在構造樹的過程中,需要對資料集進行多次的順序掃瞄和排序,因而導致演算法的低效。此外,c4.5只適合於能夠駐留於記憶體的資料集,當訓練集大得無法在記憶體容納時程式無法執行。
我們以乙個很典型被引用過多次的訓練資料集d為例,來說明c4.5演算法如何計算資訊增益並選擇決策結點。
由其中四個屬性來決定是否進行活動還是取消活動。上面的訓練集有4個屬性,即屬性集合a=;而類標籤有2個,即類標籤集合c=,分別表示適合戶外運動和不適合戶外運動,其實是乙個二分類問題。
c4.5演算法的優點是:產生的分類規則易於理解,準確率較高。c4.5演算法的缺點是:在構造樹的過程中,需要對資料集進行多次的順序掃瞄和排序,因而導致演算法的低效。
c4.5的演算法流程:
演算法測試:
跟我一起資料探勘(23) C4 5
c4.5是一系列用在機器學習和資料探勘的分類問題中的演算法。它的目標是監督學習 給定乙個資料集,其中的每乙個元組都能用一組屬性值來描述,每乙個元組屬於乙個互斥的類別中的某一類。c4.5的目標是通過學習,找到乙個從屬性值到類別的對映關係,並且這個對映能用於對新的類別未知的實體進行分類。由於id3演算法...
跟我一起資料探勘(15) 線性回歸
線性回歸是利用數理統計中的回歸分析,來確定兩種或兩種以上變數間相互依賴的定量關係的一種統計分析方法,運用十分廣泛。分析按照自變數和因變數之間的關係型別,可分為線性回歸分析和非線性回歸分析。在統計學中,線性回歸 linear regression 是利用稱為線性回歸方程的最小平方函式對乙個或多個自變數...
跟我一起資料探勘(10) HP Vertica
考慮到企業資料倉儲的重要戰略意義 edws 和每年投入的鉅額維護和擴充套件費用,如何容易地訪問這些大量資訊資產是非常迫切的需求。然而,許多edws成為自己成功的受害者。隨著時間的推移,使用者獲取新問題答案的需要導致edws包含的資料量和複雜資料型別發生迅速增長,同時也帶來更多的併發和複雜分析的壓力。...