機器學習面筆試 決策樹篇

2022-08-26 01:42:08 字數 2372 閱讀 8866

讓所有節點求平均值。

簡介:

熵用於衡量不確定性,所以均分的時候熵最大

kl散度用於度量兩個分布的不相似性,kl(p||q)等於交叉熵h(p,q)-熵h(p)。交叉熵可以看成是用q編碼p所需的bit數,減去p本身需要的bit數,kl散度相當於用q編碼p需要的額外bits。

互動資訊mutual information :i(x,y) = h(x)-h(x|y) = h(y)-h(y|x) 表示觀察到x後,y的熵會減少多少

具體計算公式參考【這裡】

資訊增益的大小是相對訓練資料而言的,沒有絕對的意義。

在分類困難時,也就是說在訓練資料集的經驗熵大的時候,資訊增益值會偏大,反之則偏小。

使用資訊增益比可以矯正這一缺點。

分別利用資訊增益、資訊增益率、gini指數作為資料分割標準。

資訊增益衡量按照某個特徵分割前後熵的減少程度,其實就是上面說的互動資訊。李航書中的公式:

用上述資訊增益會出現優先選擇具有較多屬性的特徵,畢竟分的越細的屬性確定性越高。所以提出了資訊增益率的概念,讓含有較多屬性的特徵的作用降低。

cart樹在分類過程中使用的基尼指數gini,只能用於切分二叉樹,而且和id3、c4.5樹不同,cart樹不會在每乙個步驟刪除所用特徵。

剪枝可防止過擬合;

剪枝分為前剪枝和後剪枝,前剪枝本質就是早停止,後剪枝通常是通過衡量剪枝後損失函式變化來決定是否剪枝。

後剪枝有:錯誤率降低剪枝、悲觀剪枝、代價複雜度剪枝

決策樹的剪枝是通過極小化決策樹的損失函式來實現的。

設樹葉節點個數為t個,t是樹的某個葉節點,該葉節點上有nt

' role="presentation">ntn

t個樣本,其中k類別的樣本點有nt

k' role="presentation">ntk

ntk個,

ht(t

)' role="presentation">ht(

t)ht

(t)為葉節點t上的經驗熵,則決策樹的損失函式為cα

(t)=

∑t=1

tnth

t(t)

+αt' role="presentation">cα(

t)=∑

t=1t

ntht

(t)+

αtcα

(t)=

∑t=1

tnth

t(t)

+αt經驗熵ht

(t)=

−∑kn

tknt

logn

tknt

' role="presentation">ht(

t)=−

∑knt

kntl

ognt

knth

t(t)

=−∑k

ntkn

tlog

ntkn

t令c(

t)=∑

t=1t

ntht

(t)=

∑t=1

t∑k=

1knt

klog

ntkn

t' role="presentation">c(t

)=∑t

=1tn

tht(

t)=∑

t=1t

∑k=1

kntk

logn

tknt

c(t)

=∑t=

1tnt

ht(t

)=∑t

=1t∑

k=1k

ntkl

ognt

knt剪枝就是當

α' role="presentation">α

α確定時,選擇損失函式最小的模型。

剪枝流程:

輸入:生成演算法產生的這個樹t,引數

α' role="presentation">αα

輸出:修剪後的樹

(1)計算每個節點的經驗熵

(2)遞迴地從樹的葉節點向上回溯,直到不能繼續為止,返回損失最小的樹。

節點中樣本為同一類;

特徵不足返回多類;

如果某個分支沒有值則返回父節點中的多類;

樣本個數小於閾值返回多類。

機器學習 決策樹

一 基本概念 決策樹 decision tree 是一種基本的分類與回歸方法。決策樹模型呈樹形結構,在分類問題中,表示屬於特徵對例項進行分類的過程,它可以認為是if then規則的集合,也可以認為是電議在特徵空間與類空空上的條件概率分布,其主要優點是模型具有可讀性,分類速度快。決策樹的學習通常包括3...

機器學習 決策樹

我覺得決策樹是機器學習所有演算法中最可愛的了 沒有那麼多複雜的數學公式哈哈 下圖是一棵決策樹,用來判斷西瓜是好瓜還是壞瓜 決策過程中提出的每個判定問題都是都對某個屬性的測試,每個測試結果要麼推導出最終結論,要麼匯出進一步判斷的問題,在上次決策結果限定的範圍內做進一步判斷。從上圖可以看出,葉節點對應決...

機器學習 決策樹

一 演算法簡介 決策樹一般都是自上而下來生成的,每個決策後事件 即自然狀態 都可能引出兩個或多個事件,導致結果的不同,把這種結構分支畫成形狀很像一棵樹的枝幹,故稱為決策樹。決策樹能夠讀取資料集合,並且決策樹很多任務都是為了資料中所蘊含的知識資訊,因此決策樹可以使用不熟悉的資料集合,並從中提取一系列規...