決策樹
1.原理
1.1模型簡介
決策樹是一種基本的回歸和分類演算法。在分類問題中,可以認為是一系列
if-then
規則的幾何。決策樹學通常包括三個步驟:特徵選擇,決策樹的生成,
決策樹的修剪。
定義:決策樹由結點和有向邊組成,內部節點表示乙個特徵和屬性,葉子
結點表示乙個類。
性質:決策樹路徑(或者對應的
if-then
規則)具有互斥且完備性:每乙個
例項都被一條路徑或規則所覆蓋,而且只被這條路徑或規則所覆蓋。
決策樹學習:能夠正確對資料集進行分類的決策樹可能有多個,也可能一
個也沒有,我們的目的是找到乙個與訓練資料集矛盾較小的,同時具有很好泛
化能力的決策樹。
特徵選擇:一種是在決策樹學習開始的時候,對特徵進行選擇,只留下對
訓練資料有足夠分類能力的特徵,一種是在學習過程中對訓練資料分割成自己
的時候,選擇最優的特徵進行分割。
決策樹生成:一般這是乙個遞迴的規程。
決策樹的剪枝:提高決策樹的泛化能力。
1.2特徵選擇
特徵選擇的準則一般是:資訊增益和資訊增益比
1.2.1
資訊增益
a.資訊增益:
資訊增益大的特徵具有更強的分類能力,
即選擇資訊增益值大的特
徵作為最優特徵。
b.資訊熵:表示變數的不確定性(在得知特徵
x的資訊時,使得
y的資訊不確
定性減少的程度)
,熵越大,變數的不確定性越大。設
x是乙個取有限值的離散型
隨機變數,其概率分布為:ii
pxxp
則隨機變數
x的熵定義為:
決策樹剪枝
剪枝是決策樹學習演算法中對付過擬合的主要手段,決策樹剪枝的基本策略有預剪枝和後剪枝 預剪枝 是指在決策樹生成過程中,對每個節點在劃分前先進行估計,若當前的劃分不能帶來泛化效能的提公升,則停止劃分,並將當前節點標記為葉節點 後剪枝 是指先從訓練集生成一顆完整的決策樹,然後自底向上對非葉節點進行考察,若...
決策樹(decision tree) 二 剪枝
注 本部落格為周志華 機器學習 讀書筆記,雖然有一些自己的理解,但是其中仍然有大量文字摘自周老師的 機器學習 書。決策樹系列部落格 決策樹 一 構造決策樹 決策樹 二 剪枝 決策樹 decision tree 三 連續值處理 決策樹 四 缺失值處理 前面在決策樹 decision tree 一 中介...
決策樹的生成與剪枝
樹模型描述 從根節點開始,使用某種特徵選取準則,如資訊增益,選取剩餘特徵作為節點,樹不一定是二叉樹,每一層的節點個數為父節點特徵的distinct數,每個節點對應的樣本數小於父節點對應的樣本數,當節點特徵對應的資訊增益小於某個值或者沒有剩餘特徵時,選擇該節點對應樣本中最大的類別作為葉節點,停止這個分...