GBDT如何選擇特徵

2022-06-11 17:24:07 字數 317 閱讀 5540

gbdt選擇特徵其實就是cart tree的生成過程。gbdt的弱分類器預設選擇的是cart tree。其實也可以選擇其他弱分類器的,選擇的前提是低方差和高偏差。假設我們目前總共有 m 個特徵。第一步我們需要從中選擇出乙個特徵 j,做為二叉樹的第乙個節點。然後對特徵 j 的值選擇乙個切分點 m. 乙個 樣本的特徵j的值 如果小於m,則分為一類,如果大於m,則分為另外一類。如此便構建了cart 樹的乙個節點,其他節點的生成過程和這個是一樣的。

那麼在每輪迭代的時候,如何選擇這個特徵 j,以及如何選擇特徵 j 的切分點 m?

回歸樹——最小二乘回歸樹生成法

特徵選擇 GBDT 特徵重要度

整合學習因具有 精度高的優勢而受到廣泛關注,尤其是使用決策樹作為基學習器的整合學習演算法。樹的整合演算法的著名 有隨機森林和gbdt。隨機森林具有很好的抵抗過擬合的特性,並且引數 決策樹的個數 對 效能的影響較小,調參比較容易,一般設定乙個比較大的數。gbdt具有很優美的理論基礎,一般而言效能更有優...

如何進行特徵選擇

前言 理論部分 乙個典型的機器學習任務是通過樣本的特徵來 樣本所對應的值。特徵過多會導致模型過於複雜,從而導致過擬合 而特徵過少則會導致模型過於簡單,從而導致欠擬合。事實上,如果特徵數大於樣本數,那麼過擬合就不可避免。特徵數比較少的時候,我們需要增加特徵。增加特徵方法很多 依照經驗 利用已有演算法提...

利用GBDT模型構造新特徵

實際問題中,可直接用於機器學習模型的特徵往往並不多。能否從 混亂 的原始log中挖掘到有用的特徵,將會決定機器學習模型效果的好壞。引用下面一句流行的話 特徵決定了所有演算法效果的上限,而不同的演算法只是離這個上限的距離不同而已。本文中我將介紹facebook最近發表的利用gbdt模型構造新特徵的方法...