機器學習之決策樹

2021-09-01 09:00:04 字數 578 閱讀 7137

關於特徵順序的方法:

1.資訊增益 id3(不能處理連續值)

複習 熵 條件熵。 先將資訊增益比較大的進行切分

因為資訊增益 = 熵-條件熵,若條件越小,資訊增益越大。這樣就帶來乙個問題,某個特徵的值多的話,他的條件熵一定就小,那幾乎確定了特徵值多的那一項為首先切分項。

2.資訊增益率 c4.5

資訊增益比 = 懲罰引數 * 資訊增益

這個思想感覺非常類似於正則化。 不直接選擇資訊增益率最大的特徵,而是現在候選特徵中找出資訊增益高於平均水平的特徵,然後在這些特徵中再選擇資訊增益率最高的特徵。

3.gini係數 cart

將不純度最低的當做當前切分

有幸在網上找到一篇非常好的文章

決策樹的幾個問題:

1.連續值切分問題:將特徵排序,計算間隔

2過擬合問題:需要進行剪枝. 剪枝分為前剪枝和後剪枝,前剪枝:在構造決策樹之前就確定每個葉子結點有多少個樣本,直接規定好最大深度;後剪枝,先構造出乙個完美的決策樹,然後對樣本比較懸殊的葉子結點進行修剪,比如乙個蘋果的酸甜比例是1:100,那就沒有判斷的必要了,直接按照甜做決策就可以了。

關於熵、條件熵舉例計算:

機器學習之決策樹

在這裡,我想以更直觀的方式幫助各位理解 掌握並且運用 注意 是運用 決策樹,從而為機器學習作鋪墊。ps 但還是希望大家稍微知道決策樹大概是什麼樣子。1.根結點 root node 沒有入邊,但有零條或多條出邊 2.內部結點 internal node 恰有一條入邊和 兩條或多條出邊 3.葉結點 le...

機器學習之決策樹

決策樹是很常見的機器學習分類演算法,竟然叫決策樹,那麼它的模型其實就像樹一樣。通過對樣本集的學習,挖掘出有用的規則。對於程式設計師來說或許以條件語句來看就更好理解了,決策樹可以看成是多個if then條件語句的集合。這種模型等同於我們寫的條件語句,所以它的 分類速度是很快的。來個例子了解下決策樹分類...

機器學習之決策樹

簡介 決策樹是一種基本的分類方法,當然也可以用於回歸。我們一般只討論用於分類的決策樹。決策樹模型呈樹形結構。在分類問題中,表示基於特徵對例項進行分類的過程,它可以認為是if then規則的集合。在決策樹的結構中,每乙個例項都被一條路徑或者一條規則所覆蓋。通常決策樹學習包括三個步驟 特徵選擇 決策樹的...