決策樹特徵連續離散，輸出連續離散

特徵：

注意：普通的dt可以多分叉，cart是二叉樹

離散：dt就正常分，cart採用二分類，對於每個類別選擇乙個離散值，其餘的合到一組（是/否分類思想）

連續：都是採用二分，取值分成<=&>兩部分

輸出

離散：分類問題，gini係數，資訊增益

連續：回歸問題，採用min（兩部分平方誤差）

cart連續特徵：

比如m個樣本的連續特徵a有m個，從小到大排列為a1,a2,…,am,則cart演算法取相鄰兩樣本值的中位數，一共取得m-1個劃分點，其中第i個劃分點表示ti表示為：ti=ai+ai+12。

對於這m-1個點，分別計算以該點作為二元分類點時的基尼係數。選擇基尼係數最小的點作為該連續特徵的二元離散分類點。比如取到的基尼係數最小的點為at,則小於at的值為類別1，大於at的值為類別2，這樣我們就做到了連續特徵的離散化。要注意的是，與離散屬性不同的是，如果當前節點為連續屬性，則該屬性後面還可以參與子節點的產生選擇過程。

比如當前層採用的4.5作為劃分，下一層可以採用2.3進行劃分

cart離散特徵：

對於cart分類樹離散值的處理問題，採用的思路是不停的二分離散特徵。

基於cart，按基學習器是分類還是回歸來決定rf是分類還是回歸

分類：所有cart分類的投票結果作為最後結果（gini標準）

回歸：所有cart回歸的平均值（最小方差）

超引數：

隨機森林需要調整的引數有：

（1）決策樹的個數

（2）特徵屬性的個數

（3）遞迴次數（即決策樹的深度）

連續特徵離散化

參考知乎使用者在工業界，很少直接將連續值作為邏輯回歸模型的特徵輸入，而是將連續特徵離散化為一系列0 1特徵交給邏輯回歸模型，這樣做的優勢有以下幾點離散特徵的增加和減少都很容易，易於模型的快速迭代這個點理解稀疏向量內積乘法運算速度快，計算結果方便儲存，容易擴充套件離散化後的特徵對異常資料有很...

LR連續特徵離散化

1主要目的是獲得指數級的表示能力。假如乙個n維的連續向量，即使採用最簡單的每一維二值化，也會得到2 n種特徵組合。這種表示方法對lr這種線性分類器是十分關鍵的。在超高維的特徵空間中，很多問題就都變為線性可分問題，從而可以極大提高分類器的能力。總之就是增強了特徵的表達能力，或者說更容易線性可分。2離散...

為什麼要將連續特徵離散化

在工業界，很少直接將連續值作為邏輯回歸模型的特徵輸入，而是將連續特徵離散化為一系列0 1特徵交給邏輯回歸模型，這樣做的優勢有以下幾點 0.離散特徵的增加和減少都很容易，易於模型的快速迭代 1.稀疏向量內積乘法運算速度快，計算結果方便儲存，容易擴充套件 2.離散化後的特徵對異常資料有很強的魯棒性比如...

決策樹 特徵連續 離散，輸出連續 離散

連續特徵離散化

LR連續特徵離散化

為什麼要將連續特徵離散化

相關推薦

決策樹特徵連續離散，輸出連續離散