決策樹,顧名思義,以樹的結構來進行**。它的基本概念在章節開頭有詳細的介紹。
構建樹的遞迴演算法中,有三個情形會導致遞迴返回。其中第二個:當前屬性(特徵)集為空,或是所有樣本在所有屬性上取值相同,無法劃分。其意思是:已經沒有特徵拿來作進一步劃分生成子節點,或者此結點中的樣本標記不一致,但是他們在剩餘待劃分的所有特徵的取值都一樣,此時也無法進一步劃分。比如我們要判定兩個西瓜是不是好瓜,還剩兩個特徵用來當做結點劃分,乙個是顏色,乙個是敲聲。這兩個西瓜類別不同,乙個好瓜乙個壞瓜,但他們顏色都是青綠色,敲聲都是渾濁,所以他們在所有屬性上取值相同,也就沒法區別哪個好哪個壞了。
關於資訊熵,其本質是反映樣本集合不一致的程度。樣本越不同,資訊熵越大。比如10個西瓜,其中9個好瓜1個壞瓜,它的資訊熵要小於10個西瓜中5好5壞。直觀上容易理解。前者類別非常一致了,基本都是好瓜,而後者好壞數量都差不多,他們也就更加不同。
在乙個結點劃分後,計算它子節點的資訊熵的和時,為什麼要給樣本數多的節點賦予更高權重呢?極端的例子:把1萬個未知的西瓜都判定為好瓜所帶來的資訊量,一定大於把兩個未知西瓜判定為好瓜的資訊量吧。
如果多個特徵帶來的資訊增益相同且最大,那麼任選這幾個最大之一即可。
增益率:特徵a的資訊增益除以特徵a的固有值。特徵a的取值數目越多,固有值越大。資訊增益準則偏好取值數目較多的特徵,所以利用增益率可以減緩這個偏好。然而增益率準則又會偏好取值數目較少的特徵,所以c4.5演算法對兩個準則做了折衷:先選資訊增益高於平均水平的特徵,再從這些特徵裡選增益率最高的。
基尼係數與資訊熵特點相同:樣本集越一致,基尼係數越小。
剪枝中:如果葉結點中正負例個數相同,則此葉結點中全部樣本判為正例
預剪枝與後剪枝對比
預剪枝 優點:降低過擬合風險 節約計算時間
缺點:增加欠擬合風險
後剪枝 優點:降低欠擬合風險 泛化能力更強
缺點:時間開銷過大
離散特徵被用於乙個結點的劃分後,它的子節點不可能再用此特徵了,因為每個子節點對於此特徵的取值均相同。而連續特徵則可反覆用多次,比如乙個結點的特徵為密度是否<0.5 ,對於類別為是的子節點,還可以用密度是否<0.3 作為特徵。
如果乙個樣本集中某些樣本的某些屬性值缺失,應該如何來學習乙個決策樹呢?
只需解決兩個問題:1.如何在屬性值缺失的情況下進行劃分屬性選擇? 2.給定劃分屬性,若樣本在該屬性上的值缺失,如何對樣本進行劃分?
第乙個問題:與之前相同,也是計算每個特徵的資訊增益,再從中選擇資訊增益最大的特徵。只不過計算資訊增益的公式有所不同,對於乙個指定的特徵,在之前計算資訊增益的公式中,把所有樣本換成沒有缺失這個特徵的樣本即可,最後將計算出的資訊增益(無缺失樣本的資訊增益)乘以無缺失樣本佔所有樣本的比例即得到對於所有樣本,此特徵的資訊增益。
第二個問題:對於已確定用來劃分的特徵,如果乙個樣本在此特徵上的取值未知,則將其劃入所有子結點,再將其樣本權值乘以乙個比例
機器學習之決策樹學習筆記
機器學習之決策樹學習筆記 什麼是決策樹?決策樹是根據資料特徵 屬性 進行不斷分類最終得到結論的一種機器學習方法。point1 資料特徵的選擇的依據是屬性的資訊增益 部分?point2 不斷分類表明決策樹是乙個遞迴過程 一 資訊熵與資訊增益 決策樹學習的關鍵是如何選擇最優劃分屬性,隨著劃分過程不斷進行...
機器學習之筆記 決策樹
決策樹 概念 決策樹 decision tree 是在已知各種情況發生概率的基礎上,通過構成決策樹來求取淨現值的期望值大於等於零的概率,評價專案風險,判斷其可行性的決策分析方法,是直觀運用概率分析的一種 法。由於這種決策分支畫成圖形很像一棵樹的枝幹,故稱決策樹。一般流程 1 收集資料 可以使用任何方...
機器學習筆記 決策樹學習
決策樹學習是一種逼近離散值目標函式的方法,在這樣的方法中學習到的函式被表示為一棵決策樹。表示法 把例項從根節點排列到某個葉子節點來分類例項,葉子節點即為例項所屬的分類。樹上的每個節點指定了對例項的某個屬性 attribute 的測試,而且該節點的每個字尾分支相應於該屬性的乙個可能值。分類例項的方法是...