特徵:
注意:普通的dt可以多分叉,cart是二叉樹
離散:dt就正常分,cart採用二分類,對於每個類別選擇乙個離散值,其餘的合到一組(是/否分類思想)
連續:都是採用二分,取值分成<=&>兩部分
輸出
離散:分類問題,gini係數,資訊增益
連續:回歸問題,採用min(兩部分平方誤差)
cart連續特徵:
比如m個樣本的連續特徵a有m個,從小到大排列為a1,a2,…,am,則cart演算法取相鄰兩樣本值的中位數,一共取得m-1個劃分點,其中第i個劃分點表示ti表示為:ti=ai+ai+12。
對於這m-1個點,分別計算以該點作為二元分類點時的基尼係數。選擇基尼係數最小的點作為該連續特徵的二元離散分類點。比如取到的基尼係數最小的點為at,則小於at的值為類別1,大於at的值為類別2,這樣我們就做到了連續特徵的離散化。要注意的是,與離散屬性不同的是,如果當前節點為連續屬性,則該屬性後面還可以參與子節點的產生選擇過程。
比如當前層採用的4.5作為劃分,下一層可以採用2.3進行劃分
cart離散特徵:
對於cart分類樹離散值的處理問題,採用的思路是不停的二分離散特徵。
rf
基於cart,按基學習器是分類還是回歸來決定rf是分類還是回歸
分類:所有cart分類的投票結果作為最後結果(gini標準)
回歸:所有cart回歸的平均值(最小方差)
超引數:
隨機森林需要調整的引數有:
(1) 決策樹的個數
(2) 特徵屬性的個數
(3) 遞迴次數(即決策樹的深度)
連續特徵離散化
參考知乎使用者 在工業界,很少直接將連續值作為邏輯回歸模型的特徵輸入,而是將連續特徵離散化為一系列0 1特徵交給邏輯回歸模型,這樣做的優勢有以下幾點 離散特徵的增加和減少都很容易,易於模型的快速迭代 這個點理解 稀疏向量內積乘法運算速度快,計算結果方便儲存,容易擴充套件 離散化後的特徵對異常資料有很...
LR連續特徵離散化
1主要目的是獲得指數級的表示能力。假如乙個n維的連續向量,即使採用最簡單的每一維二值化,也會得到2 n種特徵組合。這種表示方法對lr這種線性分類器是十分關鍵的。在超高維的特徵空間中,很多問題就都變為線性可分問題,從而可以極大提高分類器的能力。總之就是增強了特徵的表達能力,或者說更容易線性可分。2離散...
為什麼要將連續特徵離散化
在工業界,很少直接將連續值作為邏輯回歸模型的特徵輸入,而是將連續特徵離散化為一系列0 1特徵交給邏輯回歸模型,這樣做的優勢有以下幾點 0.離散特徵的增加和減少都很容易,易於模型的快速迭代 1.稀疏向量內積乘法運算速度快,計算結果方便儲存,容易擴充套件 2.離散化後的特徵對異常資料有很強的魯棒性 比如...