決策樹的起源 Hunt演算法

2021-08-18 11:39:14 字數 740 閱讀 9623

最早的決策樹演算法是由hunt等人於2023年提出,hunt演算法是許多決策樹演算法的基礎,包括id3、c4.5和cart等,本文以hunt演算法為例介紹決策樹算發的基本思想及決策樹的一些設計問題。

hunt演算法通過將訓練記錄相繼劃分為較純的子集,以遞迴方式建立決策樹。設dt是與結點t相關聯的訓練記錄集,而y = 為類標號,hunt演算法的遞迴定義如下:

1.如果dt中所有的記錄都屬於同乙個類yt,則結點t是葉子結點,用yt標記;

2.如果dt中包含多個類的記錄,則選擇乙個屬性測試條件,將記錄劃分為較小的子集。對於測試條件的每個輸出,建立乙個子女結點,並根據測試結果將dt中的記錄分布到子女結點中,然後對每個子女結點遞迴地呼叫該演算法;

對於以上演算法,如果屬性值的每種組合都在訓練集中出現,並且每種組合都具有唯一的類標號,則hunt演算法是有效的。但是但對於大多數的實際情況來講,這一假設並不現實,因此,需要額外的條件來處理以下情況:

1.在第二步,演算法所建立的子女結點可能為空,即不存在與這些結點相關聯的記錄。如果沒有乙個訓練記錄包含與這樣的結點相關聯的屬性組合,這種情形就有可能發生。這時,該結點成為葉子結點,類標號為其父結點所關聯記錄集中類別個數最多的類別;

2.在第二步,如果與dt相關聯的所有記錄都具有相同的屬性值(類標號除外),則沒有屬性可用於進一步劃分當前記錄集,這時可以採用投票原則(少數服從多數)將當前結點強制為葉結點,其類標號為該結點所關聯記錄集中類別個數最多的類別;

由hunt演算法的基本思想,我們可以看到,決策樹歸納的學習演算法必須解決以下兩個問題:

決策樹演算法

決策樹是一種樹型結構,其中每個內部結點表示在乙個屬性上的測試,每個分支代表乙個測試輸出,每個葉結點代表一種類別。決策樹學習是以例項為基礎的歸納學習,採用的是自頂向下的遞迴方法,其基本思想是以資訊熵為度量構造一棵熵值下降最快的樹,到葉子結點處的熵值為零,此時每個葉節點中的例項都屬於同一類。決策樹學習演...

決策樹演算法

本文主要介紹id3 c4.5和cart演算法 決策樹起源於概念學習系統 cls 概念學習模型 是乙個事先定義的範疇集合和一些有關例子是否落入給定範疇的判定 概念學習的主要任務 是判斷所給定事物的屬性或特性,並且正確地區分這些事物,將其劃分到某乙個範疇 對於如下決策樹模型 我們首先考慮他的屬性outl...

決策樹演算法

引 最近老師布置了課堂展示的作業,主題是決策樹,老師還舉了買西瓜的決策例子,感覺貼近生活也很有意思。在這之前沒有了解過這個概念,通過幾個禮拜的學習收穫不少。一 首先,什麼是決策樹?個人而言,決策樹就是將人在做決策時的思維脈絡以樹的形式展示出來的產物,即決策的過程模型。這是一棵去不去打高爾夫球的決策樹...