機器學習 決策樹

2022-09-13 01:24:15 字數 975 閱讀 8395

參考文章:

《機器學習-周志華》

《統計學習方法-李航》

《機器學習實戰-peter harrington》

《pattern recognition and machine learning》

選擇所有特徵屬性中資訊熵最大的特徵,從根節點進行測試,根據測試結果將例項分配到其子節點,每乙個子節點對應該特徵的取值,如此遞迴對例項進行測試並分配,直至到達葉節點,最後將例項分類到葉節點中。

根節點:包含樣本全集

葉節點:對應決策結果,即對應的例項分類

其他節點:對應特徵屬性測試

優點:1.模型具有可讀性,分類速度快,計算複雜度不高

2.可以處理連續和種類字段

3.無需領域知識以及引數假設

4.適合高維資料

5.對中間值的缺失不敏感

6.可以同時處理標稱型和數值型數

缺點:1.容易產生過擬合

2.容易忽略資料集中屬性的相互關聯

3.對於那些各類別樣本數量不一致的資料,在決策樹中,進行特徵屬性劃分時,不同的判定準則會帶來不同的屬性選擇傾向。即因不同的演算法得到的結果可能不同

《pattern recognition and machine learning》p48頁,講述了夏農熵公式的由來。

對資料集進行分類的不確定性h(d)稱為經驗熵,其概率一般由資料估計(特別是極大似然估計)得到。

特徵屬性a在給定條件下對資料集分類的不確定性h(d|a),其概率一般由資料估計(特別是極大似然估計)得到。

機器學習 決策樹

一 基本概念 決策樹 decision tree 是一種基本的分類與回歸方法。決策樹模型呈樹形結構,在分類問題中,表示屬於特徵對例項進行分類的過程,它可以認為是if then規則的集合,也可以認為是電議在特徵空間與類空空上的條件概率分布,其主要優點是模型具有可讀性,分類速度快。決策樹的學習通常包括3...

機器學習 決策樹

我覺得決策樹是機器學習所有演算法中最可愛的了 沒有那麼多複雜的數學公式哈哈 下圖是一棵決策樹,用來判斷西瓜是好瓜還是壞瓜 決策過程中提出的每個判定問題都是都對某個屬性的測試,每個測試結果要麼推導出最終結論,要麼匯出進一步判斷的問題,在上次決策結果限定的範圍內做進一步判斷。從上圖可以看出,葉節點對應決...

機器學習 決策樹

一 演算法簡介 決策樹一般都是自上而下來生成的,每個決策後事件 即自然狀態 都可能引出兩個或多個事件,導致結果的不同,把這種結構分支畫成形狀很像一棵樹的枝幹,故稱為決策樹。決策樹能夠讀取資料集合,並且決策樹很多任務都是為了資料中所蘊含的知識資訊,因此決策樹可以使用不熟悉的資料集合,並從中提取一系列規...