集體智慧型程式設計 決策樹

2021-09-24 22:18:55 字數 426 閱讀 9021

決策樹是一種非常簡單直觀的對觀測資料進行分類的方法。

構造決策樹的演算法有很多種,cart/id3等等演算法我們都可以選擇,此處就不再一一贅述。本章的重點在於之前完全沒有接觸過的演算法部分:決策樹的剪枝與處理數值型結果。

在使用上述演算法訓練決策樹會帶來乙個很大的問題,那就是決策樹可能會變得過度擬合,過於針對訓練資料而建立出樹的分支會導致使用測試集時結果並不如意。

針對這個問題,我們採用了一種方法來消除過多的分支:先構造好如前所述的整棵樹,然後再嘗試消除多餘的節點,這個過程就是剪枝。剪枝時,對具有相同父節點的一組節點進行檢查,判斷如果將其合併,熵的增加量是否會小於某個指定的閾值。如果確實如此,則這些葉節點會被合併為乙個單一的節點,合併後的新節點包含了所有可能的結果值。

處理數值型結果時若把數字看作絕對的離散型別,這樣會使決策樹分支非常多,解決方法暫時沒有很好的收穫,可以日後補充。

《集體智慧型程式設計》第7章 決策樹建模 個人筆記

本章使用cart樹 分類回歸樹 來做分類,找到最優拆分屬性和最優拆分屬性值後進行劃分。如何選擇劃分分案,通過計算資料集合的混雜程度。對於混雜程度的測度,有多種方案,這裡用以下兩種 本章採用的是後剪枝策略,先建立一顆完整的決策樹,考察某個節點,如果將其子節點合併熵的增加量小於某個指定的閾值,則合併其子...

簡單決策樹程式設計

設定好屬性字典 d keys dict 色澤 青綠 烏黑 淺白 根蒂 蜷縮 硬挺 稍蜷 敲聲 清脆 沉悶 濁響 紋理 稍糊 模糊 清晰 臍部 凹陷 稍凹 平坦 觸感 軟粘 硬滑 讀取資料 x f open r c users dell desktop xiguaji3.0.txt r lines f...

決策樹和CART決策樹

首先簡單介紹下決策樹 說到決策樹肯定離不開資訊熵 什麼是資訊熵 不要被這名字唬住,其實很簡單 乙個不太可能的時間居然發生了,要比乙個非常可能的時間發生提供更多的資訊。訊息說 今天早上太陽公升起 資訊量是很少的,以至於沒有必要傳送。但另一條訊息說 今天早上日食 資訊量就很豐富。概率越大資訊量就越少,與...