機器學習之決策樹

2022-09-13 21:45:19 字數 1758 閱讀 9065

、決策樹概述

前面我們講的knn演算法,雖然可以完成很多分類任務,但它最大的缺點是無法給出資料的內在含義,而決策樹的主要優勢就在於資料形式非常容易理解。決策樹演算法能夠讀取資料集合,決策樹的乙個重要任務是為了資料所蘊含的知識資訊,因此,決策樹可以使用不熟悉的資料集合,並從中提取一系列規則,在這些機器根據資料集建立規則是,就是機器學習的過程。

在構造決策樹時,第乙個需要解決的問題就是,如何確定出哪個特徵在劃分資料分類是起決定性作用,或者說使用哪個特徵分類能實現最好的分類效果。這樣,為了找到決定性的特徵,劃分川最好的結果,我們就需要評估每個特徵。當找到最優特徵後,依此特徵,資料集就被劃分為幾個資料子集,這些資料自己會分布在該決策點的所有分支中。此時,如果某個分支下的資料屬於同一型別,則該分支下的資料分類已經完成,無需進行下一步的資料集分類;如果分支下的資料子集內資料不屬於同一型別,那麼就要重複劃分該資料集的過程,按照劃分原始資料集相同的原則,確定出該資料子集中的最優特徵,繼續對資料子集進行分類,直到所有的特徵已經遍歷完成,或者所有葉結點分支下的資料具有相同的分類。

劃分資料集的大原則是:將無序的資料變得更加有序。在劃分資料集前後資訊發生的變化稱為資訊增益,如果我們知道如何計算資訊增益,就可以計算每個特徵值劃分資料集獲得的資訊增益,而獲取資訊增益最高的特徵就是最好的特徵。

那麼如何計算資訊增益呢?而提到資訊增益我們又不得不提到乙個概念"夏農熵",或者簡稱熵。熵定義為資訊的期望值。如果待分類的事物可能會出現多個結果x,則第i個結果xi發生的概率為p(xi),那麼我們可以由此計算出xi的資訊熵為l(xi)=p(xi)log(1/p(xi))=-p(xi)log(p(xi)),那麼,對於所有可能出現的結果,事物所包含的資訊希望值(資訊熵)就為:h=-σp(xi)log(p(xi)),i屬於所有可能的結果。這樣,假設利用資料集中某一特徵a對資料集d(d的分類類別有n種)進行分類,而特徵a取值有k種,那麼此時,利用特徵a對資料集進行分類的資訊增益為:資訊增益h(d,a)=原始資料集的資訊熵h(d)-特徵a對資料集進行劃分後資訊熵h(d/a),其中h(d/a)=∑|aj|/|d|*h(aj),j屬於a的k種取值,|aj|和|d|分別表示,特徵a第j種取值的樣本數佔所有取值樣本總數的比例,以及資料集的樣本總數

在知道了如何選取劃分資料的最優特徵後,我們就可以依據此來構建決策樹了。

二、演算法偽**

訓練樣本集d=

屬性集a=

treegenerate(d,a):

生成節點node

if d中樣本全屬於同一類別c:

將node標記為c類葉節點

return

end if

if 屬性集a為空或者d的所有屬性值均一樣:

將node標記為最多類

return

end if

從a中選取最佳劃分屬性a*

for a in a*:

為node生成乙個分支,令dv表示d中在a*屬性值為a的樣本子集

if dv為空:

continue;

else:

treegenerate(dv,a\)遞迴繼續

end if

end for

三、演算法小結

值得注意的是決策樹演算法可能或出現的過度匹配(過擬合)的問題,當決策樹的複雜度較大時,很可能會造成過擬合問題。此時,我們可以通過裁剪決策樹的辦法,降低決策樹的複雜度,提高決策樹的泛化能力。比如,如果決策樹的某一葉子結點只能增加很少的資訊,那麼我們就可將該節點刪掉,將其併入到相鄰的結點中去,這樣,降低了決策樹的複雜度,消除過擬合問題。

機器學習之決策樹

在這裡,我想以更直觀的方式幫助各位理解 掌握並且運用 注意 是運用 決策樹,從而為機器學習作鋪墊。ps 但還是希望大家稍微知道決策樹大概是什麼樣子。1.根結點 root node 沒有入邊,但有零條或多條出邊 2.內部結點 internal node 恰有一條入邊和 兩條或多條出邊 3.葉結點 le...

機器學習之決策樹

決策樹是很常見的機器學習分類演算法,竟然叫決策樹,那麼它的模型其實就像樹一樣。通過對樣本集的學習,挖掘出有用的規則。對於程式設計師來說或許以條件語句來看就更好理解了,決策樹可以看成是多個if then條件語句的集合。這種模型等同於我們寫的條件語句,所以它的 分類速度是很快的。來個例子了解下決策樹分類...

機器學習之決策樹

簡介 決策樹是一種基本的分類方法,當然也可以用於回歸。我們一般只討論用於分類的決策樹。決策樹模型呈樹形結構。在分類問題中,表示基於特徵對例項進行分類的過程,它可以認為是if then規則的集合。在決策樹的結構中,每乙個例項都被一條路徑或者一條規則所覆蓋。通常決策樹學習包括三個步驟 特徵選擇 決策樹的...