決策樹和整合演算法都是樹模型
決策樹:從根節點一步步走到葉子節點,所有的資料都會落到葉子節點,既可以做分類也可以做回歸。
一顆樹有三種節點組成,根節點,中間幾點,葉子節點。根節點是第乙個選擇節點,也是最重要的乙個選擇特徵。葉子節點是存放最終的結果。
決策樹的訓練和測試
訓練是建立一棵樹。
測試是讓資料從根節點走到葉子節點。
如何切分特徵:
通過一種衡量標準,計算在不同特徵下的值。選擇最好的乙個作為根節點。
資訊增益:g(d,a)=h(d)-h(d|a) 是集合d的資訊熵-在特徵a條件的資訊熵
決策樹的三種演算法:
1.id3 資訊增益
2.c4.5 資訊增益率
3.cart 基尼係數
cart分為回歸樹和分類樹,回歸樹是平方誤差。 分類樹是基尼係數,作為sklearn預設選擇。
決策樹減枝原因:容易出現過擬合,只要樹足夠大,能夠把所有的資料分開。
減枝分為預剪枝和後剪枝。
預剪枝:在建立樹的過程中進行剪枝。---實用
後剪枝:在建立決策樹以後剪枝。
剪枝策略:
預剪枝策略:限制樹的深度,葉子節點的個數,資訊增益量的大小等。
後剪枝策略:通過一定的衡量標準,比如葉子節點個數越多,損失越大。
決策樹的優缺點:
優點1.容易理解和解釋。
2.不需要很多的資料,不需要歸一化。
缺點:1.過擬和
2.決策樹不穩定,資料小的變化可能導致產生不同的樹。
改進方法:
1.cart剪紙
2.隨機森林
隨機森林
隨機森林是一種整合方法,通過隨機取樣樣本和隨機選取特徵生成多顆樹,產生多個分類器,通過投票表決的方式產生最終的結果。
隨機森林的特點:兩個特點又放回的取樣,取樣樣本和取樣特徵。
隨機森林的特點:
1.具有極高的準確率
2.能夠執行在大資料集上
3.能夠處理高維的樣本,不需要降維。
4.能夠評估各個特徵在分類問題上的重要性。
5.對於缺失值也有很好的效果。
資訊增益與決策樹
決策樹是一種判別式模型。在一顆分類決策樹中,非葉子節點時決策規則,葉子節點是類別。當輸入乙個特徵向量時,按照決策樹上的規則從根節點向葉節點移動,最後根據葉節點的類別判定輸入向量的類別。決策樹也可以用來解決回歸問題。建立乙個決策樹模型主要有三個步驟 特徵選擇 決策樹的生成 決策樹的剪枝。而特徵選擇時要...
決策樹 資訊熵增益
from math import log import operator defcreatedateset dataset 青年 否 否 一般 否 青年 否 否 好 否 青年 是 否 好 是 青年 是 是 一般 是 青年 否 否 一般 否 中年 否 否 一般 否 中年 否 否 好 否 中年 是 是 ...
最大資訊熵增益 決策樹與資訊增益
今天我們開始介紹決策樹。它既可以用於分類,也可以用於回歸。這裡我們主要介紹更加常見的分類用法。概念決策樹,顧名思義,它的形狀類似於一棵樹,我們可以簡單把它畫出來 如上圖,最上面的乙個點我們叫它根節點 root node 最下面不再進行分類的點我們叫它葉節點 leaf node 決策樹的分類過程是這樣...