決策樹如何處理取值為連續值的特徵(屬性)

2021-10-25 02:51:34 字數 637 閱讀 2241

在介紹資訊增益、資訊增益率、基尼指數的時候都只是說了離散特徵的處理,公式也是只針對離散特徵,那麼連續特徵怎麼辦呢?

顯然公式不再適用,那麼我們改公式嗎?本來這幾個公式就來自其他學科的研究成果,直接推廣似乎不大可能,那麼就有另一條路,把連續的特徵離散化。這樣一來不就又可以套上面處理離散值的公式了嗎?

辦法

連續值離散化來處理,那怎麼離散呢?西瓜書介紹的找乙個閾值一分為二的方法

假設在樣本集合d上特徵 a 有 n 個取值,先把 n 個值從小到大排個序。

確定乙個閾值,把樣本集合分成兩部分。閾值怎麼來呢,取排序後兩個相鄰的值的均值(那麼n個值就有 n-1 個閾值),相當於n個小朋友從矮到高站成一排,你選個位置分成兩堆,位置就等同於閾值

分別比較這 n-1 個閾值的資訊增益,選使得資訊增益最大的那個值作為閾值來劃分

注意:連續特徵在劃分時可以重複使用,不像離散特徵,只能用一次,我也不知道為啥,還沒想明白

決策樹 缺失值如何處理

參考部落格 決策樹如何處理缺失值?也就是面對兩個問題 1 如果樣本某個屬性有缺失值,那麼怎麼計算使用這個屬性劃分結點時的資訊增益呢?2 在第一步的基礎上,即使資訊增益計算出來了,那麼由於樣本這一屬性值缺失了,應該將這一樣本劃分到哪個子結點呢?我們分別來看一下訓練集 測試集上怎麼處理缺失值。訓練集 對...

決策樹 連續值的處理

連續值處理 因為連續屬性的可取值數目不再有限,因此不能像前面處理離散屬性列舉離散屬性取值來對結點進行劃分。因此需要連續屬性離散化,常用的離散化策略是二分法,這個技術也是c4.5中採用的策略。下面來具體介紹下,如何採用二分法對連續屬性離散化 下面舉個具體的例子,來看看到底是怎樣劃分的。給定資料集如下 ...

決策樹缺失值python 決策樹處理缺失值

缺失值問題可以從三個方面來考慮 1.在選擇 屬性的時候,訓練樣本存在缺失值,如何處理?計算 損失減少值時,忽略特徵缺失的樣本,最終計算的值乘以比例 實際參與計算的樣本數除以總的樣本數 假如你使用id3演算法,那麼選擇分類屬性時,就要計算所有屬性的熵增 資訊增益,gain 假設10個樣本,屬性是a,b...