可採用二分法,對樣例在該屬性上的m個取值,取其m-1個間隔中的數作為閾值對樣例進行二分類,選擇最優的劃分點的資訊增益,作為該屬性在該節點進行劃分的資訊增益
注意,其他非連續屬性在某節點使用過後,在其子節點將不能再被用作劃分屬性,但是連續值因為其每次只選擇乙個二分點,所以在使用過後,後續子節點可以繼續使用該屬性進行劃分
根據不缺失該屬性的樣本計算在子節點和父節點間的資訊增益,和其他屬性對比資訊增益時,缺失屬性的資訊增益需要乘以乙個小於一的係數,這個係數是無缺失值樣本佔總樣本的比例。
若確定根據缺失屬性進行分類,則該屬性不缺失的樣例按照屬性值分入對應節點,缺失的樣本放入全部子節點中,但其權重x相應減少。即每乙個樣例在根節點權重都是1,如果根據了缺失屬性進行劃分,因為該樣例在這個屬性上沒有值,無法確定其屬於哪乙個節點,因此要放入每乙個節點中。具體的權重變化規則是:
假設有4個樣例,在父節點中的權重都是1。其中1,2,3樣例的屬性值分別是a,a,b,樣例4屬性值缺失。按照屬性分類後,1,2樣例進入a節點,3樣例進入b節點,4樣例同時進入a和b節點,且在a和b節點中的權重變為2/3和1/3(分別是不缺失樣例進入節點a的比例和不缺失樣例進入節點b的比例)
機器學習 決策樹
一 基本概念 決策樹 decision tree 是一種基本的分類與回歸方法。決策樹模型呈樹形結構,在分類問題中,表示屬於特徵對例項進行分類的過程,它可以認為是if then規則的集合,也可以認為是電議在特徵空間與類空空上的條件概率分布,其主要優點是模型具有可讀性,分類速度快。決策樹的學習通常包括3...
機器學習 決策樹
我覺得決策樹是機器學習所有演算法中最可愛的了 沒有那麼多複雜的數學公式哈哈 下圖是一棵決策樹,用來判斷西瓜是好瓜還是壞瓜 決策過程中提出的每個判定問題都是都對某個屬性的測試,每個測試結果要麼推導出最終結論,要麼匯出進一步判斷的問題,在上次決策結果限定的範圍內做進一步判斷。從上圖可以看出,葉節點對應決...
機器學習 決策樹
一 演算法簡介 決策樹一般都是自上而下來生成的,每個決策後事件 即自然狀態 都可能引出兩個或多個事件,導致結果的不同,把這種結構分支畫成形狀很像一棵樹的枝幹,故稱為決策樹。決策樹能夠讀取資料集合,並且決策樹很多任務都是為了資料中所蘊含的知識資訊,因此決策樹可以使用不熟悉的資料集合,並從中提取一系列規...