機器學習之決策樹

2021-10-23 22:10:16 字數 1891 閱讀 1408

機器學習也進行了一段時間了,最近看到決策樹這部分的知識,說實在的這裡邊的知識點還是很好理解的,主要的就是在於怎麼將這部分的演算法程式設計出來,這個還是很費腦子的,反正我是弄了很久才弄出來幾個容易的演算法,也許是本人智力有限哈。反正也是學習,也吐槽一些我在機器學習過程中的費腦子糟糕心情罷了。也是便於我自己整理決策樹這部分知識點,我簡略的列在了下邊,公式演算法之類的暫時未能列在下面(主要是太多了,繁瑣),重要的還是要自己理解吧。

基礎知識:

1.決策樹是基於樹結構來進行決策的。

2.一顆決策樹包涵乙個根結點,若干個內部結點和若干個葉結點,葉結點對應於決策結果,其他結點則對於於乙個屬性測試,每個結點包涵的樣本集合根據屬性測試結果劃分到子結點中去,跟結點包涵整個樣本集。

3.決策樹學習的目的就是為了產生乙個泛化能力強的決策樹。

4.基本流程遵循「分而治之」。

資訊熵:

1.度量樣本集合純度最常用的指標。(其值越小,純度越高),樣本集合d中第k類別樣本所佔比例為y。

資訊增益:

1.資訊增益:樣本數越多的分支結點的影響越大。若屬性a的資訊增益越大,意味著使用屬性a來進行劃分所獲得的「純度提公升」越大。

2.所以可以採用資訊增益來進行決策樹的劃分屬性選擇。當若干屬性同時達到最大時,任選其中乙個作為劃分屬性。

3.資訊增益可能對數目較多的屬性有所偏好。

增益率:(c4.5決策樹演算法)

1.劃分屬性選取:先從候選屬性中選取資訊增益高於平均水平的屬性,在從中選取增益率高的屬性最為劃分屬性。

基尼指數:(cart決策樹)

1.資料d的純度可以用基尼值來度量,基尼值越小,資料d的純度越高。

2.劃分屬性選取:選擇那個使得劃分後基尼指數最小的屬性作為最優劃分屬性。

剪枝處理:

1.時決策樹主要對付「過擬合」的手段。結點劃分太多,導致訓練樣本學的「太好」,導致過擬合。

2.預剪枝:在決策樹生成之前過程中,對每個結點在劃分前先進行評估,若該結點的劃分不能為決策樹泛化性帶來提公升,則將它作為葉結點。(降低了過擬合的風險,也減少了訓練時間和測試時間開銷,但是可能帶來了欠擬合的風險)。

3.後剪枝:先從訓練集生成一顆完整的決策樹,然後自底向上對非葉結點進行考察,若將該結點對應的子樹替換為葉結點能提公升決策樹的泛化性,則將它替換為葉結點。(後剪枝通常比預剪枝保留了更多的分支,一般情況下,後剪枝的欠擬合風險很低,泛化能力要優於預剪枝決策樹,但是訓練時間開銷要大很多)。

4.當結點作為葉結點時,其類別結果是訓練樣本例數最多的類別,但當樣例最多的類別不唯一時,可任選其中乙個類別。

5.評估時可使用驗證集來驗證結點的精度等,來確定是否將其作為劃分屬性。

6.僅有一層劃分的決策樹亦稱為「決策樹樁」。

以上均是對資料集d的離散屬性來生成決策樹。以下為連續屬性處理。

連續值和缺失值:

連續值處理:

1.(二分法)將屬性取值從小到大順序排列,選取這些值構成區間的中位數作為候選劃分點,然後選取最優的劃分點進行集合的劃分。

2.若當前結點劃分屬性為連續屬性,該屬性依然可以作為後代結點的劃分屬性。

缺失值處理:

1.若樣本的屬性已知,則將其劃入到對應的子結點中,若樣本屬性值未知,則將樣本同時劃入所有的子結點(讓它以不同的概率劃入到不同的子結點中去)

多變數決策樹:

1.決策樹形成的分類邊界由若干個與座標軸平行的分段組成。

2.使用「斜的劃分邊界」進行簡化。在多變數決策樹的學習過程中,不是為每個非葉結點尋找乙個最優劃分,而是試圖建立乙個合適的線性分類器。

機器學習之決策樹

在這裡,我想以更直觀的方式幫助各位理解 掌握並且運用 注意 是運用 決策樹,從而為機器學習作鋪墊。ps 但還是希望大家稍微知道決策樹大概是什麼樣子。1.根結點 root node 沒有入邊,但有零條或多條出邊 2.內部結點 internal node 恰有一條入邊和 兩條或多條出邊 3.葉結點 le...

機器學習之決策樹

決策樹是很常見的機器學習分類演算法,竟然叫決策樹,那麼它的模型其實就像樹一樣。通過對樣本集的學習,挖掘出有用的規則。對於程式設計師來說或許以條件語句來看就更好理解了,決策樹可以看成是多個if then條件語句的集合。這種模型等同於我們寫的條件語句,所以它的 分類速度是很快的。來個例子了解下決策樹分類...

機器學習之決策樹

簡介 決策樹是一種基本的分類方法,當然也可以用於回歸。我們一般只討論用於分類的決策樹。決策樹模型呈樹形結構。在分類問題中,表示基於特徵對例項進行分類的過程,它可以認為是if then規則的集合。在決策樹的結構中,每乙個例項都被一條路徑或者一條規則所覆蓋。通常決策樹學習包括三個步驟 特徵選擇 決策樹的...