機器學習演算法 決策樹總結

2021-08-03 20:52:40 字數 1250 閱讀 8080

1. 決策樹學習的目的:從資料樣本集中歸納出一組具有分類能力的分類規則。

2. 樹模型和線性模型有什麼區別呢?

樹形模型是乙個乙個特徵進行處理,之前線性模型是所有特徵給予權重相加得到乙個新的值。決策樹與邏輯回歸的分類區別也在於此

。另外邏輯回歸只能找到線性分割,而決策樹可以找到非線性分割。

3. id3,

c4.5

演算法的優點和缺點

a. id3演算法:

以資訊增益為準則選擇資訊增益最大的屬性。

優點:計算複雜度不夠,輸出結果易於理解。

缺點:1)資訊增益對可取值數目較多的屬性有所偏好,比如通過id號可將每個樣本分成一類,但是沒有意義。2)

id3只能對離散屬性的資料集構造決策樹。

鑑於以上缺點,後來出現了c4.5演算法。

b. c4.5演算法:

以資訊增益率為準則選擇屬性。

優點:1)

抑制可取值較多的屬性,增強泛化效能

。2)在樹的構造過程中可以進行剪枝,緩解過擬合;3)能夠對連續屬性進行離散化處理(二分法);4)能夠對缺失值進行處理;

缺點:構造樹的過程需要對資料集進行多次順序掃瞄和排序,導致演算法低效。

4. id3,

c4.5

,cart

演算法對比

a. 工程差異

id3和

c4.5

只能做分類,

cart

(分類回歸樹)不僅可以做分類(

0/1)還可以做回歸(

0-1)。

b. 樹結構差異

c4.5子節點是可以多分的,而

cart

是無數個二叉子節點;以此拓展出以

cart

分類樹為基礎的「樹群」random forest , 和

以cart回歸樹為基礎的「樹群」gbdt。

c. 樣本資料的差異

id3只能對

離散變數進行處理,c4.5和

cart

可以處理連續和

離散兩種自變數

;id3對缺失值敏感,而

c4.5

和cart

對缺失值可以進行多種方式的處

理;只從樣本量考慮,小樣本建議考慮c4.5、大樣本建議考慮

cart

。c4.5

處理過程中需對資料集進行多次排序,處理成本耗時較高,而

cart

本身是一種大樣本的統計方法,小樣本處理下泛化誤差較大

機器學習演算法總結之決策樹

一 先了解熵的概念 根據以上定義,經驗熵是在訓練集上有若干分類。條件熵則是用特徵a的取值將訓練集分類。熵表示的是資料中包含的資訊量大小。熵越小,資料的純度越高,也就是說資料越趨於一致,這是我們希望的劃分之後每個子節點的樣子。資訊增益越大,則意味著使用屬性a來進行劃分所獲得的 純度提公升 越大。也就是...

機器學習演算法 決策樹

決策樹類似一中策略或者條件選擇,其中各個節點代表選擇條件,各個葉子結點代表可能達到的結果,決策樹 decision tree 是乙個樹結構 可以是二叉樹或非二叉樹 其每個非葉節點表示乙個特徵屬性上的測試,每個分支代表這個特徵屬性在某個值域上的輸出,而每個葉節點存放乙個類別。使用決策樹進行決策的過程就...

機器學習演算法 決策樹

決策樹的使用主要是用於分類。年齡收入 信用是否學生 是否買電腦年輕高 高是是中年 低中否否 老年中低否 是對於一些適合分類的資料中,考慮各種因素對結果的影響大小進行決策,一般是先選取區分度較高的因素。比如說,年齡大小這個因素在很大程度上影響我們的結果 是否買電腦。那麼,年齡因素將作為第乙個決策因素出...