決策樹評判標準

2021-08-25 05:52:26 字數 623 閱讀 6429

針對分類問題,劃分規則的評判可以分為兩步:

1.如果乙個節點上的資料都差不多是同一類別,那麼,這個節點就幾乎不需要再做劃分了,否則想要針對該節點,生成新的劃分規則。

2.如果新的規則能基本上把節點上不同類別的資料離開,使得每個子節點上都是類別比較單一的資料,那麼這個規則就是乙個好規則。

現在定義節點的不純度,通常記為hm。數值越接近0,資料型別越單一。常用指標如下: 

在節點不純的基礎上,進一步定義劃分規則的不純度。依舊以gini為例,假設節點根據某種規則被劃分為兩個子節點,ni

接下來討論劃分規則的處理方法。

當節點的gini指標小於等於某個閾值(不妨記作min_impurity_split)時,則表示該節點不需要進一步拆分,否則需要生成新的劃分規則。

對於每乙個需要再次劃分的節點,選擇gini指標最低的劃分規則來生成子節點,並不斷重複這個過程,直至所有節點都不需要再次劃分。決策樹的劃分規則其實就是貪心演算法。

上面的討論針對的是分類問題,其實決策樹也能解決回歸問題,具體過程和分類問題大同小異,唯一的區別就是將不純度的評判標準改為距離誤差,比如均方差(mse)。

決策樹和CART決策樹

首先簡單介紹下決策樹 說到決策樹肯定離不開資訊熵 什麼是資訊熵 不要被這名字唬住,其實很簡單 乙個不太可能的時間居然發生了,要比乙個非常可能的時間發生提供更多的資訊。訊息說 今天早上太陽公升起 資訊量是很少的,以至於沒有必要傳送。但另一條訊息說 今天早上日食 資訊量就很豐富。概率越大資訊量就越少,與...

決策樹(二)決策樹回歸

回歸 決策樹也可以用於執行回歸任務。我們首先用sk learn的decisiontreeregressor類構造一顆回歸決策樹,並在乙個帶雜訊的二次方資料集上進行訓練,指定max depth 2 import numpy as np quadratic training set noise np.r...

決策樹01 決策樹的原理

此筆記根據 machine learning in action 和周志華教授的 機器學習 所作。缺點 可能會產生過度匹配問題。適用資料型別 數值型和標稱型 machine learning in action if so return 類標籤 else 尋找劃分資料集的最好特徵 劃分資料集 建立分...