熵描述了資料的混亂程度,熵越大,混亂程度越高,也就是純度越低;反之,熵越小,混亂程度越低,純度越高。 熵的計算公式如下所示:
其中pi表示類i的數量佔比。以二分類問題為例,如果兩類的數量相同,此時分類節點的純度最低,熵等於1;如果節點的資料屬於同一類時,此時節點的純度最高,熵 等於0。
用資訊增益表示**前後跟的資料複雜度和**節點資料複雜度的變化值,計算公式表示為:
其中gain表示節點的複雜度,gain越高,說明複雜度越高。資訊增益說白了就是**前的資料複雜度減去孩子節點的資料複雜度的和,資訊增益越大,**後的複雜度減小得越多,分類的效果越明顯。
使用資訊增益作為選擇**的條件有乙個不可避免的缺點:傾向選擇分支比較多的屬性進行**。為了解決這個問題,引入了資訊增益率這個概念。資訊增益率是在資訊增益的基礎上除以**節點資料量的資訊增益(聽起來很拗口),其計算公式如下:
其中info_gain表示資訊增益,intrinsicinfo表示**子節點資料量的資訊增益,其計算公式為:
基尼值計算公式如下:
其中pi表示類i的數量佔比。其同樣以上述熵的二分類例子為例,當兩類數量相等時,基尼值等於0.5 ;當節點資料屬於同一類時,基尼值等於0 。基尼值越大,資料越不純。
決策樹演算法
決策樹是一種樹型結構,其中每個內部結點表示在乙個屬性上的測試,每個分支代表乙個測試輸出,每個葉結點代表一種類別。決策樹學習是以例項為基礎的歸納學習,採用的是自頂向下的遞迴方法,其基本思想是以資訊熵為度量構造一棵熵值下降最快的樹,到葉子結點處的熵值為零,此時每個葉節點中的例項都屬於同一類。決策樹學習演...
決策樹演算法
本文主要介紹id3 c4.5和cart演算法 決策樹起源於概念學習系統 cls 概念學習模型 是乙個事先定義的範疇集合和一些有關例子是否落入給定範疇的判定 概念學習的主要任務 是判斷所給定事物的屬性或特性,並且正確地區分這些事物,將其劃分到某乙個範疇 對於如下決策樹模型 我們首先考慮他的屬性outl...
決策樹演算法
引 最近老師布置了課堂展示的作業,主題是決策樹,老師還舉了買西瓜的決策例子,感覺貼近生活也很有意思。在這之前沒有了解過這個概念,通過幾個禮拜的學習收穫不少。一 首先,什麼是決策樹?個人而言,決策樹就是將人在做決策時的思維脈絡以樹的形式展示出來的產物,即決策的過程模型。這是一棵去不去打高爾夫球的決策樹...