決策樹分類應用

2021-08-21 08:44:03 字數 1668 閱讀 8478

題目要求:根據一些病人的資訊,推薦合適的**眼鏡型別

資料集資訊:有關**眼鏡,他有著24個案例,4維資料,常用於多分類問題

資料準備與資料預處理

資料**

**眼鏡資料集是十分著名的資料集,它包含很多患者眼部狀況的觀察條件以及醫生推薦的**眼鏡型別。**眼鏡型別包括硬材質,軟材質,以及不適合佩戴**眼鏡。

數即**於uci資料庫。

資料如下

資料最後一列為醫生建議,前三列為患者眼部情況有關的三個條件。

資料預處理

因為資料維度低,且無明顯線性關係,所以不採取維歸約。且資料總量少,也並無缺失,所以在此次資料下,並不採取具體的資料處理方法。

資料統計

採用模型:決策樹

基本原理

決策樹(decision tree)是一種基本的分類與回歸方法。決策樹模型呈樹形結構,在分類問題中,表示基於特徵對例項進行分類的過程。它可以認為是if-then規則的集合,也可以認為是定義在特徵空間與類空間上的條件概率分布。相比樸素貝葉斯分類,決策樹的優勢在於構造過程不需要任何領域知識或引數設定,因此在實際應用中,對於探測式的知識發現,決策樹更加適用。

演算法實現

決策樹的主函式:本質上是個遞迴函式,該函式主要功能是根據某種規則生長出決策樹的各個分支節點,並根據終止條件結束演算法。

a) 輸入需要分類的資料集和類別標籤

b) 根據某種分類規則得到最優的劃分特徵,並建立特徵的劃分節點——計算最優特徵子函式

c) 按照該特徵的每個取值劃分資料集為若干部分——劃分資料集子函式

d) 根據劃分子函式的計算結果構建出新的節點,作為樹生長出的新分支

e) 檢驗是否符合遞迴終止條件

f) 將劃分的新節點包含的資料集和類別標籤作為輸入,遞迴執行上述步驟

決策樹分類是乙個比較簡單的分類方法,優缺點明顯,比如優勢是在於在計算複雜度不高,輸出結果易於理解,對中間值的缺失不敏感,可以處理不相關特徵資料。缺點在於可能會產生過度匹配問題。

回到決策樹的演算法層面,以上**的實現基於id3決策樹構造演算法,它是乙個非常經典的演算法,但其實缺點也不少。實際上決策樹的使用中常常會遇到乙個問題,即「過度匹配」。有時候,過多的分支選擇或匹配選項會給決策帶來負面的效果。為了減少過度匹配的問題,通常演算法設計者會在一些實際情況中選擇「剪枝」。簡單說來,如果葉子節點只能增加少許資訊,則可以刪除該節點。

決策樹分類

一 分類的概念 分類是一種重要的資料分析形式,分類方法用於 資料物件的離散類別,而 則用於 資料物件的連續取值 資料分類是兩個階段的過程,包括學習階段和分類階段 學習階段 訓練階段 就是建立描述預先定義的資料類或概念集的分類器 而訓練集是有資料庫元祖和與他們相互關聯的類標號組成 類標號屬性是離散值和...

分類決策樹

決策樹是基於特徵對例項進行分類的樹形結構。決策樹學習演算法包括 特徵選擇 樹的生成和樹的剪枝。2.1.id3 1 針對當前的集合,計算每個特徵的資訊增益 2 選擇資訊增益最大的特徵作為當前節點的決策決策特徵 3 根據特徵不同的類別劃分到不同的子節點 比如年齡特徵有青年,中年,老年,則劃分到3顆子樹 ...

分類決策樹

決策樹是乙個簡單易用的機器學習演算法,具有很好的實用性。在風險評估 資料分類 專家系統中都能見到決策樹的身影。決策樹其實是一系列的if then規則的集合,它有可讀性良好,分類速度快等優點。把決策樹看成是一些if then規則的集合,在每一層樹上根據屬性的值判斷走勢,至到遇到葉節點,葉節點對應的就是...