決策樹 特徵連續 離散,輸出連續 離散

2021-09-16 18:27:39 字數 910 閱讀 2222

特徵:

注意:普通的dt可以多分叉,cart是二叉樹

離散:dt就正常分,cart採用二分類,對於每個類別選擇乙個離散值,其餘的合到一組(是/否分類思想)

連續:都是採用二分,取值分成<=&>兩部分

輸出

離散:分類問題,gini係數,資訊增益

連續:回歸問題,採用min(兩部分平方誤差)

cart連續特徵:

比如m個樣本的連續特徵a有m個,從小到大排列為a1,a2,…,am,則cart演算法取相鄰兩樣本值的中位數,一共取得m-1個劃分點,其中第i個劃分點表示ti表示為:ti=ai+ai+12。

對於這m-1個點,分別計算以該點作為二元分類點時的基尼係數。選擇基尼係數最小的點作為該連續特徵的二元離散分類點。比如取到的基尼係數最小的點為at,則小於at的值為類別1,大於at的值為類別2,這樣我們就做到了連續特徵的離散化。要注意的是,與離散屬性不同的是,如果當前節點為連續屬性,則該屬性後面還可以參與子節點的產生選擇過程。

比如當前層採用的4.5作為劃分,下一層可以採用2.3進行劃分

cart離散特徵:

對於cart分類樹離散值的處理問題,採用的思路是不停的二分離散特徵。

rf

基於cart,按基學習器是分類還是回歸來決定rf是分類還是回歸

分類:所有cart分類的投票結果作為最後結果(gini標準)

回歸:所有cart回歸的平均值(最小方差)

超引數:

隨機森林需要調整的引數有:

(1) 決策樹的個數

(2) 特徵屬性的個數

(3) 遞迴次數(即決策樹的深度)

連續特徵離散化

參考知乎使用者 在工業界,很少直接將連續值作為邏輯回歸模型的特徵輸入,而是將連續特徵離散化為一系列0 1特徵交給邏輯回歸模型,這樣做的優勢有以下幾點 離散特徵的增加和減少都很容易,易於模型的快速迭代 這個點理解 稀疏向量內積乘法運算速度快,計算結果方便儲存,容易擴充套件 離散化後的特徵對異常資料有很...

LR連續特徵離散化

1主要目的是獲得指數級的表示能力。假如乙個n維的連續向量,即使採用最簡單的每一維二值化,也會得到2 n種特徵組合。這種表示方法對lr這種線性分類器是十分關鍵的。在超高維的特徵空間中,很多問題就都變為線性可分問題,從而可以極大提高分類器的能力。總之就是增強了特徵的表達能力,或者說更容易線性可分。2離散...

為什麼要將連續特徵離散化

在工業界,很少直接將連續值作為邏輯回歸模型的特徵輸入,而是將連續特徵離散化為一系列0 1特徵交給邏輯回歸模型,這樣做的優勢有以下幾點 0.離散特徵的增加和減少都很容易,易於模型的快速迭代 1.稀疏向量內積乘法運算速度快,計算結果方便儲存,容易擴充套件 2.離散化後的特徵對異常資料有很強的魯棒性 比如...