決策樹學習記錄

2021-09-25 21:43:58 字數 1284 閱讀 9260

4.1、基本流程

在介紹基本流程前,我們先來了解一下決策樹的概念,以及決策樹學習的目的。

決策樹學習的目的:是為了產生一棵泛化能力強的樹,其流程遵守簡單直觀的「分而治之」的策略。

對於決策過程,書上給出了乙個形象的例子——西瓜問題。對於該問題,明確要做的決策是:「這是好瓜嗎?」 看圖4.1,決策過程中,我們會基於它的每個屬性進行一系列的子決策,每個子決策的結果或是匯出最終結論,或是到出進一步的判定問題。當所有判定結束後, 每個子節點就對應了決策的結論。

有了對過程的大概認識,下面我來介紹一下決策樹學習的基本演算法.

如圖4.2,顯然,決策樹的生成是乙個遞迴過程,遞迴停止的條件有三個:1.2.3,對於三種情況,其類別判定規則如書上介紹。

剛剛在介紹決策過程時,不知道大家有沒有乙個疑惑? 為什麼先根據色澤進行劃分,之後再根據根蒂,我是否可以改變一下順序?其實,劃分的順序,對應圖4.2演算法中的第8行——從a中選擇最優劃分屬性。這是我們決策樹學習的關鍵。

如何選擇最優劃分屬性呢? 讓我們開始4.2節的學習。

4.2、 劃分選擇

一般而言,隨著劃分過程的不斷進行,我們希望決策樹的分…越來越高。

4.2節,介紹了三種劃分屬性選擇的指標。分別是資訊增益,增益率和基尼指數。

下面我們來介紹增益率

需要注意的是:增益率準則對可取值數目較少的屬性有所偏好。因此c4.5演算法選擇特徵的方法是先從候選特徵中選出資訊增益高於平均水平的特徵,再從這些特徵中選擇增益率最高的

最後,介紹一下基尼指數,公式如下,直觀來說,gini(d)反映了從資料集…純度越高。

採用和式(4.2)相同得形式,(假裝有公式)。於是,…即:。

4.3、 剪枝處理

課本舉例

(結合例子對兩方法優劣進行說明)

兩方法優缺點

後剪枝

4.4、連續與缺失值

多變數決策樹

我們把每個屬性是為空間座標中的乙個座標軸,南無d個屬性所描述的樣本對應了d維空間的乙個資料點。對樣本分類就以為著在這個座標空間尋找不同樣本之間的分類邊界

決策樹的分類邊界有乙個明顯的特點:軸平行,即他的分類邊界由若干個與座標軸平行的分段組成。

顯然,分類邊界…開銷會很大。

機器學習實戰學習記錄 決策樹

決策樹中演算法採用的id3.劃分資料集基於 特徵。其中採用分類依據為資訊理論中的資訊增益和資訊熵 夏農熵 機器學習中夏農熵計算公式為 其中xi表示分類,p xi 表示xi分類的概率。首先,建立資料集及計算夏農熵 from math import log defcalcshannonent datas...

決策樹學習

決策樹學習是一種逼近離散值目標函式的方法,在這種方法中學習到的函式被表示為一棵決策樹。決策樹通過把例項從艮節點排列到某個葉子結點來分類例項,葉子結點即為例項所屬的分類。樹上的每乙個結點指定了對例項的某個屬性的測試,並且該結點的每乙個後繼分支對應於該屬性的乙個可能值。分類例項的方法是從這棵樹的根節點開...

決策樹學習

決策樹是一種在機器學習中常見的學習演算法。決策樹是一種基於樹結構來進行決策分類和回歸的,在每一步的決策過程中根據屬性值來進行劃分,決策過程中提出的每個判定問題就是對某乙個屬性的測試。一般的,乙個決策樹通常包含乙個根節點,若干的葉子節點和內部節點,葉子節點對應於最後的決策結果,其他每一節點對應於每乙個...