從決策樹到隨機森林 小結

2021-07-26 04:51:17 字數 415 閱讀 6061

決策樹演算法接觸了三種,id3,c4.5,cart。

1. id3採用資訊增益來選擇特徵,演算法比較基礎也簡單,缺點是容易過擬合,不能適應連續性輸入。

2. c4.5採用資訊增益率來選擇特徵,能應對連續性輸入了。

3. cart用基尼指數來選擇特徵。

值得一提的是,sklearn有關決策樹的庫中,預設是用cart,可選id3,但是沒有看見c4.5的相關可選值。(在隨機森林裡也是這樣)

隨機森林。隨機體現在樣本和特徵的選擇上,有放回的隨機選擇和樣本量相同數量的樣本,隨機在n個特徵中選擇n個特徵,再從n個特徵裡計算出準確率最高的那個,作為當前節點的特徵。這樣做的好處是不必單獨考慮測試集,因為測試集已經體現在演算法裡的,由於重複的取樣,每棵樹大約有三分之一的樣本不會被選擇,這樣可以有效避免過擬合。樹與樹之間會有一定的重合,可以提高演算法的精度。

機器學習總結8 從決策樹到隨機森林

先通過乙個例子引入 例子 如果對樹結構有所了解的話,很容易生成乙個樹,這就是乙個決策樹,通過這個樹就可以判斷出女孩到底會不會去見乙個相親物件。我們可以看到決策樹描述了整個做決定的過程,它和人們實際做決定的過程非常的類似,有著很強的可解釋性。總結一下,這是乙個二分類問題,我們可以通過判斷相親物件的年齡...

決策樹和隨機森林

決策樹 建立決策樹的關鍵,是在當前狀態下選擇那個屬性作為分類依據。根據不同的目標函式,建立決策樹主要有三個演算法 id3 iterative dichotomiser c4.5 cart classification and regression tree 資訊增益 當熵和條件熵中的概率由資料統計得...

決策樹和隨機森林

c4.5 cart 2,工具 能夠將dot檔案轉換為pdf png 3,執行命令 缺點 改進 建立10顆決策樹,樣本,特徵大多不一樣 隨機又放回的抽樣 bootstrap boolean,optional default true 是否在構建樹時使用放回抽樣。隨機森林的優點 import panda...