1.資訊理論基礎(熵 聯合熵 條件熵 資訊增益 基尼不純度)
2.決策樹的不同分類演算法(id3演算法、c4.5、cart分類樹)的原理及應用場景
3.回歸樹原理
4.決策樹防止過擬合手段
5.模型評估
6.sklearn引數詳解python繪製決策樹
2.決策樹的不同分類演算法(id3演算法、c4.5、cart分類樹)的原理及應用場景
決策樹概念:所謂決策樹,顧名思義,就是一種樹,一種依託於策略抉擇而建立起來的樹。在機器學習中,決策樹是一種**模型,代表的是一種物件特徵屬性與物件目標值之間的一種對映關係。決策樹僅有單一輸出,如果有多個輸出,可以分別建立獨立的決策樹以處理不同的輸出。
3.回歸樹原理
4.決策樹防止過擬合手段
剪枝是決策樹學習演算法對付「過擬合」的主要手段。決策樹剪枝的基本策略有「預剪枝」和「後剪枝」。
預剪枝是指在決策樹生成過程中,對每個結點在劃分前先進行估計,若當前結點的劃分不能帶來決策樹泛化效能提公升,則停止劃分並將當前結點標記為葉結點;後剪枝則是先從訓練集生成一棵完整的決策樹,然後自底向上地對非葉結點進行考察,若將該結點對應的子樹替換為葉結點能帶來決策樹泛化效能提公升,則將該子樹替換為葉結點。
5.模型評估
sklearn引數詳解,python繪製決策樹
決策樹演算法梳理
熵 entropy 在資訊理論與概率統計中,熵 entropy 是表示隨機變數不確定性的度量。設x是乙個取有限個值的離散隨機變數,其概率分布為 則隨機變數x的熵定義為 熵只依賴於x的分布,而與x的取值無關,所以也可將x的熵記作h 即 熵取值最大,隨機變數不確定性最大。條件熵 設有隨機變數 x,y 其...
決策樹演算法梳理
熵 又稱為自資訊,度量隨機變數的不確定性。純度 聯合熵 聯合熵是描述一對隨機變數平均所需要的資訊量 條件熵 h y x 表示在已知隨機變數 x 的條件下,隨機變數 y 的不確定性 資訊增益 以某特徵劃分資料集前後的熵的差值 基尼不純度 指將來自集合中的某種結果隨機應用在集合中,某一資料項的預期誤差率...
決策樹演算法梳理
1.資訊理論基礎 資訊熵 資訊熵是度量樣本的集合純度最常用的一種指標。在資訊理論和概率統計中,熵是表示隨機變數不確定性的度量。聯合熵 兩個隨機變數x,y的聯合分布,可以形成聯合熵joint entropy,用h x,y 表示。條件熵 設有隨機變數 x,y 其聯合概率分布為 條件熵h y x 表示在已...