樹模型幾個知識點

2021-09-02 15:03:59 字數 812 閱讀 7947

id3無法處理連續特徵

c4.5可以處理連續特徵,用資訊增益率選擇**特徵,遇到連續特徵的時候,依次二分樣本,根據資訊增益獲得最佳分割點

id3和c4.5都只能處理分類問題,cart既能處理分類問題,又能處理回歸問題

cart分割點的選擇粒度更細,根據gini係數,選擇某個特徵的某個值作為分割點(分為等於該值和不等於該值的二叉樹)

分類樹的葉子節點類別是由數量最多的種類決定的;回歸樹的葉子結點值是由屬於該節點的所有樣本的平均label值決定的;

cart處理離散特徵數量多於3個的屬性時,需要人為的組合特徵成為兩類,因此cart不適用與離散特徵太多的資料

關於特徵復用:

1. 離散特徵,如果是cart二叉樹分類,那麼特徵會被復用;如果是多叉樹分類,則不會被復用

2. 連續特徵,會被復用

gbdt和xgboost的區別:gbdt只支援cart回歸樹,xgboost支援線性分類器;xgboost引入了正則化;xgboost支援並行化運算(特徵並行而非樹訓練並行);xgboost借鑑了隨機森林的做法,支援樣本抽樣和特徵抽樣;對於有缺失值的case,xgboost可以自動學習出**方向。

gbdt解決分類問題:也是要生成cart回歸樹,根據要分的類別k,生成k棵樹,用softmax的思想,

第一顆樹針對樣本x的第一類,輸入為(x,0)(x,0)。第二顆樹輸入針對 樣本x 的第二類,輸入為(x,1)(x,1)。第三顆樹針對樣本x 的第三類,輸入為(x,0)。

樹模型常用的調參方法:

1.學習率、迭代次數

2.樹結構引數:樹深、節點繼續劃分所需最小樣本數、葉子結點最少樣本數

3.最大特徵數量

樹模型知識點

疑問learning to rank之lambdamart的前世今生 gbdt原理 非常重要 決策樹 上 id3 c4.5 cart 及剪枝 資料探勘十大演算法之cart詳解 深入理解gbdt回歸演算法。對gbdt的原理講解的比較清晰,舉的例子也比較好。參考learning to rank之lamb...

幾個知識點

1 記憶體對齊 2 mvc與ssh框架對應關係 3 面試相關 4 非c 內建型別a和b,在哪幾種情況下b能隱式轉化為a?case 4 賦值操作,雖不是正宗的隱式型別轉換,但也可以勉強算乙個 5 extern c 的慣用法 1 在c 中引用c語言中的函式和變數,在包含c語言標頭檔案 假設為cexamp...

幾個新學知識點

檢視目錄下最新建立的第乙個檔案 ls t 1 head n 1 bz2 檔案解壓 先用bzip2 d tar.bz2解壓成tar檔案 然後用tar xvf 解壓 bzip2的使用資訊可以通過bzip2 help 檢視 yum安裝包之後如何檢視包所在的路徑 一thunderbird為例 1 rpm q...