機器學習 決策樹

2021-09-14 07:28:37 字數 567 閱讀 3941

決策樹是一種監督學習方法,它的每個內部結點表示乙個屬性上的測試,每個分支代表乙個測試輸出,每個葉節點代表一種類別。

id3演算法使用了乙個概念——資訊熵。與我們在高中物理學的熵類似,都是表示「散亂」,「無序」的程度。資訊熵越高,事件的不確定性,出各種情況的可能性越大,也可以說資訊越模糊、籠統。

以何標準選擇合適的屬性**呢?這就要提到另乙個概念了——資訊增益。簡單來說,資訊增益表示**前後資訊熵降低的多少。每次都選擇資訊增益最大的屬性進行**,也就是資訊熵降低最多的屬性進行**。不斷**至剩餘一種屬性作為葉結點。

注:該演算法使用貪婪演算法,不進行回溯。

這個演算法無法處理連續資料,沒有考慮缺少值,沒有剪枝易過擬合,屬性值的量對資訊增益影響大。

c4.5演算法思路與id3演算法相似,在此基礎上進行了改進,對連續的特徵值離散化,對樣本設定權重以解決缺失值問題,引入正則化係數進行剪枝,引入資訊熵與特徵熵的比值以解決特徵數對決策的影響。

cart演算法不再採用資訊熵,而是使用基尼係數來代替資訊增益作為判斷的標準,基尼係數與資訊增益相反,基尼係數越小,代表不純度越低,特徵越好。同時採用二叉樹而非多叉樹。在剪枝方面同樣則採取正則化係數進行剪枝。

機器學習 決策樹

一 基本概念 決策樹 decision tree 是一種基本的分類與回歸方法。決策樹模型呈樹形結構,在分類問題中,表示屬於特徵對例項進行分類的過程,它可以認為是if then規則的集合,也可以認為是電議在特徵空間與類空空上的條件概率分布,其主要優點是模型具有可讀性,分類速度快。決策樹的學習通常包括3...

機器學習 決策樹

我覺得決策樹是機器學習所有演算法中最可愛的了 沒有那麼多複雜的數學公式哈哈 下圖是一棵決策樹,用來判斷西瓜是好瓜還是壞瓜 決策過程中提出的每個判定問題都是都對某個屬性的測試,每個測試結果要麼推導出最終結論,要麼匯出進一步判斷的問題,在上次決策結果限定的範圍內做進一步判斷。從上圖可以看出,葉節點對應決...

機器學習 決策樹

一 演算法簡介 決策樹一般都是自上而下來生成的,每個決策後事件 即自然狀態 都可能引出兩個或多個事件,導致結果的不同,把這種結構分支畫成形狀很像一棵樹的枝幹,故稱為決策樹。決策樹能夠讀取資料集合,並且決策樹很多任務都是為了資料中所蘊含的知識資訊,因此決策樹可以使用不熟悉的資料集合,並從中提取一系列規...