連續特徵離散化

參考知乎使用者

在工業界，很少直接將連續值作為邏輯回歸模型的特徵輸入，而是將連續特徵離散化為一系列0、1特徵交給邏輯回歸模型，這樣做的優勢有以下幾點：

離散特徵的增加和減少都很容易，易於模型的快速迭代；這個點理解

稀疏向量內積乘法運算速度快，計算結果方便儲存，容易擴充套件；

離散化後的特徵對異常資料有很強的魯棒性：比如乙個特徵是年齡》30是1，否則0。如果特徵沒有離散化，乙個異常資料「年齡300歲」會給模型造成很大的干擾，減少異常值帶來的誤差~

邏輯回歸屬於廣義線性模型，表達能力受限；單變數離散化為n個後，每個變數有單獨的權重，相當於為模型引入了非線性，能夠提公升模型表達能力，加大擬合；

離散化後可以進行特徵交叉，由m+n個變數變為m*n個變數，進一步引入非線性，提公升表達能力；

特徵離散化後，模型會更穩定，比如如果對使用者年齡離散化，20-30作為乙個區間，不會因為乙個使用者年齡長了一歲就變成乙個完全不同的人。當然處於區間相鄰處的樣本會剛好相反，所以怎麼劃分區間是門學問；

特徵離散化以後，起到了簡化了邏輯回歸模型的作用，降低了模型過擬合的風險。李沐曾經說過：模型是使用離散特徵還是連續特徵，其實是乙個「海量離散特徵+簡單模型」同「少量連續特徵+複雜模型」的權衡。既可以離散化用線性模型，也可以用連續特徵加深度學習。

哈哈，很精闢~

LR連續特徵離散化

1主要目的是獲得指數級的表示能力。假如乙個n維的連續向量，即使採用最簡單的每一維二值化，也會得到2 n種特徵組合。這種表示方法對lr這種線性分類器是十分關鍵的。在超高維的特徵空間中，很多問題就都變為線性可分問題，從而可以極大提高分類器的能力。總之就是增強了特徵的表達能力，或者說更容易線性可分。2離散...

為什麼要將連續特徵離散化

在工業界，很少直接將連續值作為邏輯回歸模型的特徵輸入，而是將連續特徵離散化為一系列0 1特徵交給邏輯回歸模型，這樣做的優勢有以下幾點 0.離散特徵的增加和減少都很容易，易於模型的快速迭代 1.稀疏向量內積乘法運算速度快，計算結果方便儲存，容易擴充套件 2.離散化後的特徵對異常資料有很強的魯棒性比如...

連續特徵離散化

LR連續特徵離散化

為什麼要將連續特徵離散化

特徵離散化

相關推薦