資料探勘 決策樹複習

2022-08-24 20:45:12 字數 957 閱讀 8921

3.1.1 資訊增益

劃分資料集的大原則是:將無序資料變得更加有序,但是各種方法都有各自的優缺點,資訊理論是量化處理資訊的分支科學,在劃分資料集前後資訊發生的變化稱為資訊增益,獲得資訊增益最高的特徵就是最好的選擇,所以必須先學習如何計算資訊增益,集合資訊的度量方式稱為夏農熵,或者簡稱熵。

希望通過所給的訓練資料學習乙個貸款申請的決策樹,用以對未來的貸款申請進行分類,即當新的客戶提出貸款申請時,根據申請人的特徵利用決策樹決定是否批准貸款申請。

特徵選擇就是決定用哪個特徵來劃分特徵空間。比如,我們通過上述資料表得到兩個可能的決策樹,分別由兩個不同特徵的根結點構成。

圖(a)所示的根結點的特徵是年齡,有3個取值,對應於不同的取值有不同的子結點。圖(b)所示的根節點的特徵是工作,有2個取值,對應於不同的取值有不同的子結點。兩個決策樹都可以從此延續下去。問題是:究竟選擇哪個特徵更好些?這就要求確定選擇特徵的準則。直觀上,如果乙個特徵具有更好的分類能力,或者說,按照這一特徵將訓練資料集分割成子集,使得各個子集在當前條件下有最好的分類,那麼就更應該選擇這個特徵。資訊增益就能夠很好地表示這一直觀的準則。

什麼是資訊增益呢?在劃分資料集之前之後資訊發生的變化成為資訊增益,知道如何計算資訊增益,我們就可以計算每個特徵值劃分資料集獲得的資訊增益,獲得資訊增益最高的特徵就是最好的選擇。

條件熵越小,說明知道了a,d就越不混亂,因此增益比越大越好。

資料探勘 決策樹

分類是資料探勘的乙個非常重要的主題,現實中的很多問題都和分類密切相關。我們日常正是因為有了分類技巧,才能對不同的事物 場景採取不同的應對方式。資料分類可以看做是乙個兩步的過程。第一步是學習過程,我們根據所需要分析的問題和資料建立乙個分類器classifier。用我們選擇好的訓練元組對分類器進行訓練,...

資料探勘 決策樹

決策樹是以樹狀結構表示資料分類的結果 非葉子結點代表測試的條件。分支代表測試的結果 1.資訊熵 informationentropy 是度量樣本集合純度最常用的一種指標。2.基尼係數 gini 是度量樣本集合不確定性指標。基尼指數與熵可近似看做是統一概念,都是越大,確定性越差 基尼指數和資訊熵的影象...

資料探勘之決策樹

熟悉掌握決策樹的原理,熟練掌握決策樹的生成方法與過程 anaconda sklearn pydotplus 決策樹是乙個非引數的監督式學習方法,主要用於分類和回歸。演算法的目標是通過推斷資料特徵,學習決策規則從而建立乙個 目標變數的模型。from sklearn import tree x 0 0 ...