決策樹演算法

2022-10-11 06:39:08 字數 1987 閱讀 4244

決策樹的優勢在於構造過程不需要任何領域知識或引數設定,因此在實際應用中,對於探測式的知識發現,決策樹更加適用。

上圖完整表達了這個女孩決定是否見乙個約會物件的策略,其中綠色節點表示判斷條件,橙色節點表示決策結果,箭頭表示在乙個判斷條件在不同情況下的決策路徑,圖中紅色箭頭表示了上面例子中女孩的決策過程。

決策樹(decision tree)是乙個樹結構(可以是二叉樹或非二叉樹)。其每個非葉節點表示乙個特徵屬性上的測試,每個分支代表這個特徵屬性在某個值域上的輸出,而每個葉節點存放乙個類別。使用決策樹進行決策的過程就是從根節點開始,測試待分類項中相應的特徵屬性,並按照其值選擇輸出分支,直到到達葉子節點,將葉子節點存放的類別作為決策結果。

不同於貝葉斯演算法,決策樹的構造過程不依賴領域知識,它使用屬性選擇度量來選擇將元組最好地劃分成不同的類的屬性。所謂決策樹的構造就是進行屬性選擇度量確定各個特徵屬性之間的拓撲結構。

構造決策樹的關鍵步驟是**屬性。所謂**屬性就是在某個節點處按照某一特徵屬性的不同劃分構造不同的分支,其目標是讓各個**子集盡可能地「純」。盡可能「純」就是盡量讓乙個**子集中待分類項屬於同一類別。**屬性分為三種不同的情況:

1、屬性是離散值且不要求生成二叉決策樹。此時用屬性的每乙個劃分作為乙個分支。

2、屬性是離散值且要求生成二叉決策樹。此時使用屬性劃分的乙個子集進行測試,按照「屬於此子集」和「不屬於此子集」分成兩個分支。

3、屬性是連續值。此時確定乙個值作為**點split_point,按照》split_point和<=split_point生成兩個分支。

構造決策樹的關鍵性內容是進行屬性選擇度量,屬性選擇度量是一種選擇**準則,是將給定的類標記的訓練集合的資料劃分d「最好」地分成個體類的

啟發式方法

,它決定了拓撲結構及**點split_point的選擇。

從資訊理論

知識中我們直到,期望資訊越小,

資訊增益

越大,從而純度越高。所以id3演算法的核心思想就是以資訊增益度量屬性選擇,選擇**後資訊增益最大的屬性進行**。下面先定義幾個要用到的概念。

設d為用類別對訓練元組進行的劃分,則d的

熵(entropy)表示為:

其中pi表示第i個類別在整個訓練元組**現的概率,可以用屬於此類別元素的數量除以訓練元組元素總數量作為估計。熵的實際意義表示是d中元組的類標號所需要的平均資訊量。

現在我們假設將訓練元組d按屬性a進行劃分,則a對d劃分的期望資訊為:

而資訊增益即為兩者的差值:

id3演算法就是在每次需要**時,計算每個屬性的增益率,然後選擇增益率最大的屬性進行**。下面我們繼續用sns社群中不真實賬號檢測的例子說明如何使用id3演算法構造決策樹。為了簡單起見,我們假設訓練集合包含10個元素:

其中s、m和l分別表示小、中和大。

設l、f、h和r表示日誌密度、好友密度、是否使用真實頭像和賬號是否真實,下面計算各屬性的資訊增益。

因此日誌密度的資訊增益是0.276。

用同樣方法得到h和f的資訊增益分別為0.033和0.553。

因為f具有最大的資訊增益,所以第一次**選擇f為**屬性,**後的結果如下圖表示:

在上圖的基礎上,再遞迴使用這個方法計算子節點的**屬性,最終就可以得到整個決策樹。

上面為了簡便,將特徵屬性離散化了,其實日誌密度和好友密度都是連續的屬性。對於特徵屬性為連續值,可以如此使用id3演算法:

先將d中元素按照特徵屬性排序,則每兩個相鄰元素的中間點可以看做潛在**點,從第乙個潛在**點開始,**d並計算兩個集合的期望資訊,具有最小期望資訊的點稱為這個屬性的最佳**點,其資訊期望作為此屬性的資訊期望。

決策樹演算法

決策樹是一種樹型結構,其中每個內部結點表示在乙個屬性上的測試,每個分支代表乙個測試輸出,每個葉結點代表一種類別。決策樹學習是以例項為基礎的歸納學習,採用的是自頂向下的遞迴方法,其基本思想是以資訊熵為度量構造一棵熵值下降最快的樹,到葉子結點處的熵值為零,此時每個葉節點中的例項都屬於同一類。決策樹學習演...

決策樹演算法

本文主要介紹id3 c4.5和cart演算法 決策樹起源於概念學習系統 cls 概念學習模型 是乙個事先定義的範疇集合和一些有關例子是否落入給定範疇的判定 概念學習的主要任務 是判斷所給定事物的屬性或特性,並且正確地區分這些事物,將其劃分到某乙個範疇 對於如下決策樹模型 我們首先考慮他的屬性outl...

決策樹演算法

引 最近老師布置了課堂展示的作業,主題是決策樹,老師還舉了買西瓜的決策例子,感覺貼近生活也很有意思。在這之前沒有了解過這個概念,通過幾個禮拜的學習收穫不少。一 首先,什麼是決策樹?個人而言,決策樹就是將人在做決策時的思維脈絡以樹的形式展示出來的產物,即決策的過程模型。這是一棵去不去打高爾夫球的決策樹...