決策樹是一種應用廣泛的機器學習演算法,過程簡單,結果易於解釋。決策樹是一種貪心演算法,它在給定時間給做出最佳選擇,並不關心能否達到全域性最優。
決策樹特點
id3:不能處理連續資料,沒有剪枝過程,採用資訊增益作為標準尋找最優特徵,這種方法偏向屬性取值多的特徵。
id3每次選取當前最佳的特徵來分割資料,並按照該特徵的所有可能取值來切分。一旦按某種特徵切分後,該特徵在之後的演算法執行過程中將不會再起作用,這種切分方法過於迅速。id3不能直接出來連續特徵。只有事先將連續特徵轉換成離散特徵,才能在id3演算法中使用。這種轉換過程會破壞連續性特徵的內在性質。
c4.5:對連續值離散處理,對於連續值,採用二元切分法,也可對缺失值處理,有剪枝過程。c4.5採用資訊增益率作為特徵選擇的標準,它和id3一樣,只能用於分類。
cart樹是十分著名且廣泛記載的樹構建演算法,可用於分類和回歸,它使用二元切分來處理連續型變數。分類時使用基尼指數選擇特徵,回歸時採用平方誤差選擇特徵。id3和c4.5對於離散特徵,根據特徵的不同取值,可構建多叉子節點,而cart採用多次二分的方法,每個節點只有兩個子節點,所以cart樹是二叉樹。cart樹有剪枝過程,可減少過擬合,增強樹模型的泛化能力。對於連續屬性,若當前節點劃分屬性為連續屬性,該屬性還可作為其後代節點的劃分屬性。
對於連續型資料,可採用二元切分法,如果特徵大於給定值就走左子樹,否則就走右子樹。二元切分法節省了樹的構建時間。二元切分法:把中位點作為候選劃分點。從小到大排序,取(ai+ai+1)/2作為候選劃分點。然後,就可以像離散屬性值一樣來考察這些劃分點,選取最優的劃分點進行樣本集合的劃分。
當樣本的某些屬性值缺失時,在選擇屬性時,僅使用不缺失該屬性的資料來計算資訊增益,最後乘以乙個代表缺失資料比例的比例係數;在對某個屬性進行劃分子節點時,對於不缺失該屬性的資料正常劃分,對於缺失該屬性的資料,按不同的權重劃分進行每個子節點
多變數決策樹
決策樹「增量學習」,接受到新樣本後對已學得的模型進行調整,不用完全重新學習,主要機制是通過調整分支路徑上的劃分屬性次序來度數進行部分重構。代表演算法有id4。增量學習可有效地降低每次接受到新樣本後的迅雷時間開銷,但多步增量學習後的模型會與汲取全部資料訓練而得到的模型有較大差別。
決策樹總結
眾所周知,決策樹是一種樹模型,可以用於分類和回歸。這裡總結一下自己認為重要的知識點 前置概念 熵 一種衡量不確定性的指標 條件熵 給定條件下的熵值 基尼不純度 表示乙個隨機選中的樣本在子集中被分錯的可能性 被選中概率 被分錯概率 資訊增益 熵 條件熵 1 三大經典決策樹 id3 選擇特徵的依據是資訊...
決策樹模型總結
1 決策樹定義 決策樹分為分類決策樹和回歸決策樹。分類決策樹應用範圍比較廣,其核心思想就是在乙個資料集上找到乙個最優的特徵,然後從這個特徵的選值中找到乙個最優的候選值,根據這個最優候選值將資料集劃分為兩個子資料集,然後遞迴上述操作,直到滿足指定條件為止。以下主要介紹分類決策樹。決策樹的生成過程主要包...
決策樹面試總結
1 概括 顧名思義,決策樹就是一棵樹,一顆決策樹包含乙個根節點 若干個內部結點和若干個葉結點 葉結點對應於決策結果,其他每個結點則對應於乙個屬性測試 每個結點包含的樣本集合根據屬性測試的結果被劃分到子結點中 根結點包含樣本全集,從根結點到每個葉子結點的路徑對應了乙個判定測試序列。決策樹學習的演算法通...