決策樹相關

2021-08-28 02:24:04 字數 405 閱讀 9678

優點:

(1)輸出結果易於理解,

(2)對缺失值不敏感,可以處理無關資料,可以處理非線性資料

(3)對於異常點的容錯能力好,健壯性高

由於遞迴分割槽只使用最合適的二分問題來生成決策樹,所以非重要變數不會影響結果。此外,二分問題對資料點集進行中心分割,因此決策樹對極值(即異常值)是具有包容性的。

(4)不需要提前歸一化

(5)可以處理多維度輸出的分類問題。

(6) 能夠同時處理資料型和常規型屬性。其他的技術往往要求資料屬性的單一。

缺點:(1)容易過擬合,需要剪枝或者rf避免

(2)只注重單個特徵的區域性劃分,而不能想lr那樣考慮整體的特徵,在處理特徵關聯性比較強的資料時表現得不是太好

(3)有些問題決策樹很難表達,如:異或問題、奇偶校驗或多路復用器問題

決策樹相關問題

bagging與boosting 參考資料 決策樹是一種典型的採用貪心策略的分類模型,即用區域性最優解去逼近全域性最優解。在整個分類過程中,核心的指標是 不純度 impurity 也就是分得 開不開 因為對於分類問題,我們總是期望能夠把資料盡可能地不相交地隔開 比較svm的基本思想 尋找最大間隔分離...

決策樹和CART決策樹

首先簡單介紹下決策樹 說到決策樹肯定離不開資訊熵 什麼是資訊熵 不要被這名字唬住,其實很簡單 乙個不太可能的時間居然發生了,要比乙個非常可能的時間發生提供更多的資訊。訊息說 今天早上太陽公升起 資訊量是很少的,以至於沒有必要傳送。但另一條訊息說 今天早上日食 資訊量就很豐富。概率越大資訊量就越少,與...

決策樹(二)決策樹回歸

回歸 決策樹也可以用於執行回歸任務。我們首先用sk learn的decisiontreeregressor類構造一顆回歸決策樹,並在乙個帶雜訊的二次方資料集上進行訓練,指定max depth 2 import numpy as np quadratic training set noise np.r...