決策樹學習的常用演算法有id3、c4.5與cart。其中id3特徵選擇的準則是資訊增益,c4.5的是資訊增益率,cart是基尼指數。熵(entropy)
介紹資訊增益之前需要先引入熵的概念:
熵表示的是隨機變數的不確定性程度,表示式為:
其中pi表示離散變數x取xi的概率。log一般以2和e為底。而熵越大,隨機變數的不確定性就越大。如圖所示:
熵取值最大時,隨機變數的不確定性最大,此時p=0.5,意味著x取0和取1的概率一樣大;而p=0或p=1時,熵值最小,完全沒有不確定性,因為此時x全部取0或者全部取1.
條件熵條件熵表示的是在x的條件下隨機變數y的不確定性,條件熵定義為x給定條件下y的條件概率分布的熵對x的數學期望:
當熵和條件熵中的概率由資料估計(特別時極大似然估計)得到時,所對應的熵與條件熵分別稱為經驗熵和經驗條件熵。
資訊增益
資訊增益表示式:
第一項表示資料d的不確定性程度,第二項表示在特徵a的條件下資料d的不確定性,資訊增益表示的是在特徵a的條件下,資料d的不確定性減少的程度,減少的越多,資料更容易被分類。所以選則資訊增益最大的特徵作為分類特徵。
資訊增益比
由於資訊增益的計算會更加偏向於選擇取值更多的特徵,所以引入了資訊增益比的概念:
資訊增益比的本質是在資訊增益的基礎上乘以乙個懲罰引數。特徵取值個數較多時,懲罰引數較小,特徵取值個數較少時,懲罰引數較大。
id3演算法
id3演算法的核心是在決策樹的各個結點上應用資訊增益準則選擇特徵。
其中設定閾值相當於進行預剪枝。
c4.5演算法
c4.5演算法與id3演算法相比,改用資訊增益比作為特徵選擇準則,其他步驟相同
為了防止過擬合,需要對決策樹進行剪枝。
剪枝一般通過極小化決策樹整體的損失函式或代價函式來實現。損失函式定義為:
熵越小資料越整齊,c(t)表示模型對訓練資料的**誤差,|t|表示樹的複雜程度,alpha控制兩者之間的關係。
如圖:
固定alpha,當calpha(t)減小了則剪枝
《統計學習方法》-李航
決策樹筆記彙總
網上關於決策樹的博文已經有很多了。我挑選了幾篇比較好理解的幾篇,作為以後查閱備忘。同時,決策樹剛開始學習時,概念比較多,建議博文結合西瓜書一起看,因為有些公式這樣寫不太理解,但是別的地方換一種寫法,就會容易理解很多。資訊熵 資訊增益 id3 資訊增益比 c4.5 參閱下面兩篇博文 基尼指數 cart...
決策樹學習筆記
模型 監督學習中的分類演算法 決策樹演算法的思路 利用樹的結構,將資料集中的特徵 屬性 劃分為樹中的分支節點 資料集中類別標籤對應樹的葉節點。構建決策樹的三要素 1.特徵選擇 資訊熵或資訊增益gini係數來選擇特徵 2.決策樹的生成 id3演算法 資訊增益 c4.5演算法 gini係數 3.決策樹的...
決策樹學習筆記
一 什麼是決策樹 決策樹是一種基於規則的方法,它用一組巢狀的規則進行 在樹的每個決策節點處,根據判斷結果進入乙個分之,反覆執行這種操作直到到達葉子節點,得到 結果。這些規則是通過訓練得到的,而不是認為設定的。規則是每一次 時的閥值。二 樹形成決策的過程 為便於用程式實現,一般將決策樹設計成二叉樹。與...