id3無法處理連續特徵
c4.5可以處理連續特徵,用資訊增益率選擇**特徵,遇到連續特徵的時候,依次二分樣本,根據資訊增益獲得最佳分割點
id3和c4.5都只能處理分類問題,cart既能處理分類問題,又能處理回歸問題
cart分割點的選擇粒度更細,根據gini係數,選擇某個特徵的某個值作為分割點(分為等於該值和不等於該值的二叉樹)
分類樹的葉子節點類別是由數量最多的種類決定的;回歸樹的葉子結點值是由屬於該節點的所有樣本的平均label值決定的;
cart處理離散特徵數量多於3個的屬性時,需要人為的組合特徵成為兩類,因此cart不適用與離散特徵太多的資料
關於特徵復用:
1. 離散特徵,如果是cart二叉樹分類,那麼特徵會被復用;如果是多叉樹分類,則不會被復用
2. 連續特徵,會被復用
gbdt和xgboost的區別:gbdt只支援cart回歸樹,xgboost支援線性分類器;xgboost引入了正則化;xgboost支援並行化運算(特徵並行而非樹訓練並行);xgboost借鑑了隨機森林的做法,支援樣本抽樣和特徵抽樣;對於有缺失值的case,xgboost可以自動學習出**方向。
gbdt解決分類問題:也是要生成cart回歸樹,根據要分的類別k,生成k棵樹,用softmax的思想,
第一顆樹針對樣本x的第一類,輸入為(x,0)(x,0)。第二顆樹輸入針對 樣本x 的第二類,輸入為(x,1)(x,1)。第三顆樹針對樣本x 的第三類,輸入為(x,0)。
樹模型常用的調參方法:
1.學習率、迭代次數
2.樹結構引數:樹深、節點繼續劃分所需最小樣本數、葉子結點最少樣本數
3.最大特徵數量
樹模型知識點
疑問learning to rank之lambdamart的前世今生 gbdt原理 非常重要 決策樹 上 id3 c4.5 cart 及剪枝 資料探勘十大演算法之cart詳解 深入理解gbdt回歸演算法。對gbdt的原理講解的比較清晰,舉的例子也比較好。參考learning to rank之lamb...
幾個知識點
1 記憶體對齊 2 mvc與ssh框架對應關係 3 面試相關 4 非c 內建型別a和b,在哪幾種情況下b能隱式轉化為a?case 4 賦值操作,雖不是正宗的隱式型別轉換,但也可以勉強算乙個 5 extern c 的慣用法 1 在c 中引用c語言中的函式和變數,在包含c語言標頭檔案 假設為cexamp...
幾個新學知識點
檢視目錄下最新建立的第乙個檔案 ls t 1 head n 1 bz2 檔案解壓 先用bzip2 d tar.bz2解壓成tar檔案 然後用tar xvf 解壓 bzip2的使用資訊可以通過bzip2 help 檢視 yum安裝包之後如何檢視包所在的路徑 一thunderbird為例 1 rpm q...