在學習決策樹學習之前,我想先問問幾個問題,以便好好梳理思路。
1. 決策樹是什麼?幹啥用的?決策樹學習又是什麼?
2. 資訊增益,純度,熵是什麼?在決策樹中是幹啥用的?
3. 構建乙個決策樹包含哪幾個步驟?如何構建?
回答:2. 熵表示乙個系統的無序程度,熵將小表示系統趨於有序。資訊增益表示在劃分資料之前之後資訊發生的變化。也就是原始資料熵減去劃分資料集後熵的差值,所以劃分資料集後的熵越小,則資訊增益越大,資料集越有序。所以要選擇資料集中使資訊增益最大的特徵值劃分為標準,依次選擇出特徵值成為節點,按照遞迴思想構建出決策樹。
3. 根據上面所述,決策樹首先需要計算熵,判斷出最小的熵,確定為特徵值,從而劃分出資料集,然後使用遞迴思想依次選擇出最好的特徵值,劃分資料集,從而構建出決策樹。
決策樹學習
決策樹學習是一種逼近離散值目標函式的方法,在這種方法中學習到的函式被表示為一棵決策樹。決策樹通過把例項從艮節點排列到某個葉子結點來分類例項,葉子結點即為例項所屬的分類。樹上的每乙個結點指定了對例項的某個屬性的測試,並且該結點的每乙個後繼分支對應於該屬性的乙個可能值。分類例項的方法是從這棵樹的根節點開...
決策樹學習
決策樹是一種在機器學習中常見的學習演算法。決策樹是一種基於樹結構來進行決策分類和回歸的,在每一步的決策過程中根據屬性值來進行劃分,決策過程中提出的每個判定問題就是對某乙個屬性的測試。一般的,乙個決策樹通常包含乙個根節點,若干的葉子節點和內部節點,葉子節點對應於最後的決策結果,其他每一節點對應於每乙個...
決策樹學習
決策樹是以例項為基礎的歸納學習。該類方法從一類無序,無規則的事物中推理出決策樹表示的分類規則。不論哪種決策樹學習演算法,其基本思想是一致的,即以資訊熵為度量構造一棵 熵值下降最快的樹,到葉子節點處的熵值為零。此時每個葉子結點的例項都屬於同一類。決策樹學習採用自頂向下的遞迴方法,決策樹的每一層結點依靠...