決策樹是一類常見的機器學習方法。決策樹是基於樹結構來進行決策的,決策過程的最終結論對應了所希望的判定結果。決策過程中提出的每個判定問題都是對某個屬性的「測試」,每個測試的結果或是匯出最終結論,或是匯出進一步的判定問題,其考慮範圍是在上次決策結果的限定範圍之內。
一般的,乙個決策樹包含乙個根節點,若干個內部結點和若干個葉結點;葉結點對應於決策結果,其他每個結點則對應於乙個屬性測試;每個結點包含的樣本集合根據屬性測試的結果被劃分到子結點中;根結點包含樣本全集。從根結點到每個葉結點的路徑對應了乙個判定測試序列。決策樹學習的目的是為了產生一棵泛化能力強,即處理未見示例能力強的決策樹。
決策樹的生成是乙個遞迴過程。在決策樹基本演算法中,有三種情形會導致遞迴返回:(1)當前結點包含的樣本全屬於同一類別,無需劃分;(2)當前屬性集為空,或是所有樣本在所有屬性上取值相同,無需劃分(3)當前結點包含的樣本集合為空,不能劃分。
其中,劃分的指標有:1.資訊增益 2.增益率 3.基尼指數(cart是一種著名的決策樹學習演算法,分類和回歸都可用),資料集的純度可用基尼值來度量。
剪枝處理:剪枝是決策樹學習演算法對付「過擬合」的主要手段。決策樹剪枝的基本策略有「預剪枝」和「後剪枝」。預剪枝是在生成決策樹的過程中,對每個結點在劃分前先進行估計,若當前結點的劃分不能帶來決策樹泛化效能提公升,則停止劃分並將當前結點標記為葉結點;後剪枝則是先從訓練集生成一棵完整的決策樹,然後自底向上地對非葉結點進行考察,若將該結點對應的子樹替換為葉結點能帶來決策樹泛化效能提公升,則將該子樹替換為葉結點。
機器學習 決策樹
一 基本概念 決策樹 decision tree 是一種基本的分類與回歸方法。決策樹模型呈樹形結構,在分類問題中,表示屬於特徵對例項進行分類的過程,它可以認為是if then規則的集合,也可以認為是電議在特徵空間與類空空上的條件概率分布,其主要優點是模型具有可讀性,分類速度快。決策樹的學習通常包括3...
機器學習 決策樹
我覺得決策樹是機器學習所有演算法中最可愛的了 沒有那麼多複雜的數學公式哈哈 下圖是一棵決策樹,用來判斷西瓜是好瓜還是壞瓜 決策過程中提出的每個判定問題都是都對某個屬性的測試,每個測試結果要麼推導出最終結論,要麼匯出進一步判斷的問題,在上次決策結果限定的範圍內做進一步判斷。從上圖可以看出,葉節點對應決...
機器學習 決策樹
一 演算法簡介 決策樹一般都是自上而下來生成的,每個決策後事件 即自然狀態 都可能引出兩個或多個事件,導致結果的不同,把這種結構分支畫成形狀很像一棵樹的枝幹,故稱為決策樹。決策樹能夠讀取資料集合,並且決策樹很多任務都是為了資料中所蘊含的知識資訊,因此決策樹可以使用不熟悉的資料集合,並從中提取一系列規...