決策樹學習通常包括3個步驟:
分類決策樹是一種描述分類的樹形結構,旨在基於經驗對目標分類做出判斷。
圖1.1 決策樹模型
以是否區間相親物件為例對決策樹進行理解,可建立如下的決策樹:
構造就是生成一顆完整的決策樹。在構造決策樹的過程中,需要選擇節點的屬性,因此,構造需要解決的問題如下:
構造決策樹,選擇結點屬性,可依據資料的純度做出劃分,每次劃分時選擇純度最高的屬性作為結點。
剪枝是為了防止過擬合現象的發生,可分為:
純度可以理解為資料間相似的程度,在分類樹決策中可作為劃分的依據(希望分類的純度越高越好)。
資訊熵表示資訊的不確定度。
在資訊理論中,隨機離散事件出現的概率存在不確定性。隨機變數x的熵定義為:
h (x
)=−∑
i=0n
pilo
gpih(x)=-\begin \sum_ ^n p_ilog p_i\end
h(x)=−
∑i=0
npi
log
pi.h(
y∣x)
=∑i=
1npi
h(y∣
x=xi
)h(y|x)=\begin\sum_^n p_i h(y|x=x_i)\end
h(y∣x)
=∑i=
1np
ih(
y∣x=
xi)
以資訊增益作為劃分訓練資料集的特徵,存在偏向於選擇取值較多的特徵的問題,使用資訊增益比可以對這一問題進行校正。
【資訊增益比】特徵 a 對訓練資料集 d 的資訊增益比 gr(
d,a)
g_(d, a)
gr(d,
a)定義為其資訊增益 g(d
,a)g(d, a)
g(d,a)
與訓練資料集 d 關於特徵 a 的值的熵 ha(
d)h_a(d)
ha(d)
之比,即
g a(
d,a)
=g(d
,a)h
a(d)
g_a(d, a)=\frac
ga(d,
a)=h
a(d
)g(d
,a)
,其中 ha(
d)=−
∑i=1
n∣di
∣d∣l
og2∣
di∣d
∣h_a(d)=-\begin\sum_^n \frac log_2\frac \end
ha(d)
=−∑i
=1n
∣d∣∣
di
log2
∣d∣
∣di
, n是特徵值 a 的取值個數。
c4.5 的生成演算法與 id3 演算法類似, c4.5 演算法對 id3 演算法進行了改進, c4.5 在生成樹的過程中,用資訊增益比來選擇特徵。
cart 又稱分類回歸樹,cart 演算法與 c4.5 演算法類似,cart 在生成樹的過程中,用基尼指數來選擇特徵
參考:
決策樹理論 Decision tree
決策樹面試被提及的題目 1 決策樹的原理 從根結點開始,對例項的某一特徵進行測試,根據測試的結果,將例項分配到其子結點 每乙個子結點對應著該特徵的乙個取值。如此遞迴地對例項進行測試並分配,直至達到葉結點。最後將例項分配到葉結點的類中。2 決策樹的過程 步驟 決策樹學習通常包括3個步驟 特徵選擇 決策...
決策樹基本理論
決策樹一一種基本的分類與回歸的演算法。呈樹形結構,在分類問題中,表示基於特徵對例項進行分類的過程,可以認為是 if then 規則的集合,也可以認為是定義在特徵空間與類上的條件概率分布。主要的優點是 模型具有可讀性,分類速度快,學習資料時,根據損失函式最小化的原則建立決策樹模型,時,對性的資料利用建...
決策樹和CART決策樹
首先簡單介紹下決策樹 說到決策樹肯定離不開資訊熵 什麼是資訊熵 不要被這名字唬住,其實很簡單 乙個不太可能的時間居然發生了,要比乙個非常可能的時間發生提供更多的資訊。訊息說 今天早上太陽公升起 資訊量是很少的,以至於沒有必要傳送。但另一條訊息說 今天早上日食 資訊量就很豐富。概率越大資訊量就越少,與...