決策樹演算法梳理

2021-09-16 14:02:21 字數 2498 閱讀 8625

:熵的概念最早起源於物理學,用於度量乙個熱力學系統的無序程度,在資訊理論裡面,熵是對不確定性的測量。

聯合熵:聯合熵就是度量乙個聯合分布的隨機系統的不確定度。分布為p(x,y)的一對隨機變數(x,y),其聯合熵定義為:

條件熵:定義事件 x 與 y 分別取 xi 和 yj 時的條件熵為

其中p(xi, yj)為 x = xi 且 y = yj 時的概率。該條件熵應當理解為你知道y的值前提下隨機變數 x 的隨機性的量。

資訊增益:特徵a對訓練資料集d的資訊增益個g(d,a)定義為集合d的經驗熵h(d)與特徵a給定條件下d的經驗條件熵h(d|a)之差,即:

一般熵h(y)與條件熵h(y|x)之差稱為互資訊。決策樹學習中的資訊增益等價於類與特徵的互資訊。

基尼不純度:從乙個資料集中隨機選取子項,度量其被錯誤的劃分到其他組裡的概率。

簡單理解:乙個隨機事件變成它的對立事件的概率。

決策樹通常包括三個步驟: 特徵選擇,決策樹生成和決策樹剪枝

決策樹的生成過程就是:使用滿足劃分準則的特徵不斷的將資料集劃分為純度更高,不確定性更小的子集的過程。

id3

具體方法:從根結點(root node)開始,對結點計算所有可能的特徵的資訊增益,選擇資訊增益最大的特徵作為結點的特徵,由該特徵的不同取值建立子結點;再對子結點遞迴地呼叫以上方法,構建決策樹;直到所有特徵的資訊增益均很小或沒有特徵可以選擇為止,最後得到乙個決策樹。

不足:資訊增益偏向取值較多的特徵。

c4.5

id3 的後繼者,並且通過動態定義將連續屬性值分割成一組離散間隔的離散屬性(基於數字變數),消除了特徵必須被明確分類的限制。c4.5 將訓練的樹(即,id3演算法的輸出)轉換成 if-then 規則的集合。然後評估每個規則的這些準確性,以確定應用它們的順序。如果規則的準確性沒有改變,則需要決策樹的樹枝來解決。

cart:採用基尼係數劃分資料,同時決定改特徵的最優二值切分點,可針對離散和連續型,可以做分類和回歸。

不足:只能進行分類。

當某個模型過度的學習訓練資料中的細節和噪音,以至於模型在新的資料上表現很差,我們稱過擬合發生了。這意味著訓練資料中的噪音或者隨機波動也被當做概念被模型學習了。而問題就在於這些概念不適用於新的資料,從而導致模型泛化效能的變差。可以從以下兩個方面著手:

預剪枝:是在決策樹的生成過程中,對每個結點在劃分前先進行估計,若當前結點的劃分不能帶來決策樹泛化效能提公升,則停止劃分即結束樹的構建並將當前節點標記為葉結點。

後剪枝:是先從訓練集生成一棵完整的決策樹,然後自底向上地對葉結點進行考察,若將該結點對應的子樹替換為葉結點能帶來決策樹泛化為效能提公升,則將該子樹替換為葉結點。泛化效能的提公升可以使用交叉驗證資料來檢查修剪的效果,通過使用交叉驗證資料,測試擴充套件節點是否會帶來改進。如果顯示會帶來改進,那麼我們可以繼續擴充套件該節點。但是,如果精度降低,則不應該擴充套件,節點應該轉換為葉節點。

分類模型誤差分為:訓練誤差(training error)、泛化誤差(generalization error)。

乙個好的模型需要有較低的泛化誤差和訓練誤差。

奧卡姆剃刀(occam』s razor):

給定兩個具有相同泛化誤差的模型,較簡單的模型比較複雜的模型更可取。

悲觀誤差估計(pessimistic error estimate):

是決策樹的葉節點數目,e(t)為總訓練誤差,nt為總訓練樣本數,omega為罰項。

對二叉樹來說,0.5的罰項意味著只要至少能夠改善乙個訓練記錄分類,結點就應當擴充套件,當1位罰項,意味著除非能夠減少乙個以上訓練記錄的誤分類,否則結點不應當擴充套件。

先剪枝:

當達到某個條件,提前終止。例如:當觀察到某個不純度度量低於某個確定閾值時就停止擴充套件葉結點,但是,難點在於很難確定正確終止的閾值。

後剪枝:

初始按照最大規模生長,按照自底向上修剪決策樹。修剪方式:

(1)子樹替換(subtree replacement)用葉結點替代子樹,葉結點的類標號為子樹的多數類;

(2)子樹提公升(subtree raising)子樹中最常使用的分支替代子樹。後剪枝能產生更好的結果。

自助法(bootstrap):

訓練集是對於原資料集的有放回抽樣,如果原始資料集n,可以證明,大小為n的自助樣本大約包含原資料63.2%的記錄。當n充分大的時候,1-(1-1/n)^(n) 概率逼近 1-e^(-1)=0.632。抽樣 b 次,產生 b 個bootstrap樣本,則,總準確率為(accs為包含所有樣本計算的準確率):

準確度的區間估計:

將分類問題看做二項分布,則有:

令 x 為模型正確分類,p 為準確率,x 服從均值 np、方差 np(1-p)的二項分布。acc=x/n為均值 p,方差 p(1-p)/n 的二項分布。acc 的置信區間:

決策樹演算法梳理

熵 entropy 在資訊理論與概率統計中,熵 entropy 是表示隨機變數不確定性的度量。設x是乙個取有限個值的離散隨機變數,其概率分布為 則隨機變數x的熵定義為 熵只依賴於x的分布,而與x的取值無關,所以也可將x的熵記作h 即 熵取值最大,隨機變數不確定性最大。條件熵 設有隨機變數 x,y 其...

決策樹演算法梳理

熵 又稱為自資訊,度量隨機變數的不確定性。純度 聯合熵 聯合熵是描述一對隨機變數平均所需要的資訊量 條件熵 h y x 表示在已知隨機變數 x 的條件下,隨機變數 y 的不確定性 資訊增益 以某特徵劃分資料集前後的熵的差值 基尼不純度 指將來自集合中的某種結果隨機應用在集合中,某一資料項的預期誤差率...

決策樹演算法梳理

1.資訊理論基礎 資訊熵 資訊熵是度量樣本的集合純度最常用的一種指標。在資訊理論和概率統計中,熵是表示隨機變數不確定性的度量。聯合熵 兩個隨機變數x,y的聯合分布,可以形成聯合熵joint entropy,用h x,y 表示。條件熵 設有隨機變數 x,y 其聯合概率分布為 條件熵h y x 表示在已...