決策樹演算法梳理

2021-09-16 13:41:38 字數 2361 閱讀 3009

一、資訊理論基礎

(1)資訊理論:

資訊理論最早來自於通訊領域,也叫通訊理論,主要研究資訊的獲取,變換,傳輸,處理。

(2)資訊熵與資訊增益:

資訊熵表示的是不確定度。均勻分布時,不確定度最大,此時熵就最大。當選擇某個特徵對資料集進行分類時,分類後的資料集資訊熵會比分類前的小,其差值表示為資訊增益。資訊增益可以衡量某個特徵對分類結果的影響大小。

(3)基尼不純度:

a、基尼值:基尼值 gini(d) 反映了從資料集中隨機抽取兩個樣本,其類別標記不一致的概率。當資料集的純度越高,每次抽到不同類別標記的概率越小。打個比方,在乙個袋子裡裝100個桌球,其中有99個白球,1個黃球,那麼當我們隨機抽取兩個球的時候,很大概率是抽到兩個白球。

所以資料集d的純度可以用基尼值來度量,其定義如下:

b、基尼指數:基尼指數是針對於屬性定義的,其反映的是,使用屬性a進行劃分後,所有分支中(使用基尼值度量的)純度的加權和。

屬性a的基尼指數定義如下:

我們在屬性集合中選擇劃分屬性的時候,就選擇使得劃分後基尼指數最小的屬性作為最優劃分屬性。cart就是用基尼指數來選擇劃分屬性的。

二、決策樹的不同分類方法的原理:

(1)id3演算法: 內部使用資訊熵以及』資訊增益『來進行構建,每次迭代選擇資訊增益最大的特徵屬性作為分割屬性。只支援離散的特徵屬性。

a、 優點:決策樹構建速度快,實現簡單。

b、 缺點:演算法依賴樣本**現次數較多的特徵屬性,但是出現次數最多的屬性並不一定最優.

(2)c4.5演算法:使用』資訊增益率『來構建,在樹的構建過程中會進行剪枝操作的優化,能夠自動完成對連續屬性的離散化處理。選擇資訊增益率大的屬性進行分割。

a、優點:準確率較高,實現簡單。

b、缺點:對資料集需要進行多次順序掃瞄和排序,效率較低。

(3)cart演算法:使用』基尼係數』作為資料純度的量化指標來構建,選擇『gini增益率』來分割,越大的即作為當前資料集的分割屬性.可用於分類和回歸。(二叉樹構建)

(4)注意區別: cart構建的一定是二叉樹,id3,c4.5構建的不一定是二叉樹。

三、回歸樹原理

(1)葉節點是乙個值:當前葉子所有樣本標籤均值

(2)誤差衡量:總方差,表示一組資料的混亂度,是本組所有資料與這組資料均值之差的平方和

(3)回歸樹的構建邏輯:二分法,每次選擇乙個最佳特徵,並找到最佳切分特徵值(使資料混亂度減少最多的[特徵,特徵值])進行切分,得到左右子樹,然後對左右子樹遞迴呼叫createtree方法,直到沒有最佳特徵為止。(實踐中,在選擇最佳特徵時,進行了預剪枝)

(4) 回歸樹剪枝:當我們設定的最小分離葉節點樣本數、最小混亂度減小值等引數過小,可能產生過擬合,直觀的現象就是,訓練出來非常多的葉子,其實是沒有必要的,此時就需要剪枝了。而剪枝分為預剪枝和後剪枝:

a、預剪枝:在choosebestsplit函式中的幾個提前終止條件(切分樣本小於閾值、混亂度減弱小於閾值),都是預剪枝(引數敏感)。

b、後剪枝:使用測試集對訓練出的回歸樹進行剪枝(由於不需要使用者指定,後剪枝是一種更為理想化的剪枝方法)

後剪枝邏輯:對訓練好的回歸樹,自上而下找到葉節點,用測試集來判斷將這些葉節點合併是否能降低測試誤差,若能,則合併。

注意:為了尋求最佳模型,會同時使用兩種剪枝技術。

四、決策樹防過擬合的手段

除了上文所講的(1)預剪枝(2)後剪枝兩種方法,還有(3)奧卡姆剃刀(occam』s razor):給定兩個具有相同泛化誤差的模型,較簡單的模型比較複雜的模型更可取。(4)悲觀誤差估計(pessimistic error estimate):對二叉樹來說,0.5的罰項意味著只要至少能夠改善乙個訓練記錄分類,結點就應當擴充套件,當1位罰項,意味著除非能夠減少乙個以上訓練記錄的誤分類,否則結點不應當擴充套件。

五:模型評估

建立了決策樹模型後需要給出該模型的評估值,這樣才可以來判斷模型的優劣。學習演算法模型使用訓練集 (training set) 建立模型,使用校驗集 (test set) 來評估模型。可以從評估指標和評估方法兩個角度結合來評估決策樹模型。

(1) 評估指標有分類準確度、召回率、虛警率和精確度等。而這些指標都是基於混淆矩陣 (confusion matrix) 進行計算的。混淆矩陣是用來評價監督式學習模型的精確性,矩陣的每一列代表乙個類的例項**,而每一行表示乙個實際的類的例項。

(2)評估方法有保留法、隨機二次抽樣、交叉驗證和自助法等。

末:時間匆忙,作者也是入坑不到兩周的萌新,更多詳細內容讀者可自行查詢,本文只是簡要梳理。

參考資料:python之機器學習【阿布舍克】著;周志文教授的西瓜書; ;

決策樹演算法梳理

熵 entropy 在資訊理論與概率統計中,熵 entropy 是表示隨機變數不確定性的度量。設x是乙個取有限個值的離散隨機變數,其概率分布為 則隨機變數x的熵定義為 熵只依賴於x的分布,而與x的取值無關,所以也可將x的熵記作h 即 熵取值最大,隨機變數不確定性最大。條件熵 設有隨機變數 x,y 其...

決策樹演算法梳理

熵 又稱為自資訊,度量隨機變數的不確定性。純度 聯合熵 聯合熵是描述一對隨機變數平均所需要的資訊量 條件熵 h y x 表示在已知隨機變數 x 的條件下,隨機變數 y 的不確定性 資訊增益 以某特徵劃分資料集前後的熵的差值 基尼不純度 指將來自集合中的某種結果隨機應用在集合中,某一資料項的預期誤差率...

決策樹演算法梳理

1.資訊理論基礎 資訊熵 資訊熵是度量樣本的集合純度最常用的一種指標。在資訊理論和概率統計中,熵是表示隨機變數不確定性的度量。聯合熵 兩個隨機變數x,y的聯合分布,可以形成聯合熵joint entropy,用h x,y 表示。條件熵 設有隨機變數 x,y 其聯合概率分布為 條件熵h y x 表示在已...