LR連續特徵離散化

2021-08-01 11:43:41 字數 630 閱讀 1105

1主要目的是獲得指數級的表示能力。假如乙個n維的連續向量,即使採用最簡單的每一維二值化,也會得到2^n種特徵組合。這種表示方法對lr這種線性分類器是十分關鍵的。在超高維的特徵空間中,很多問題就都變為線性可分問題,從而可以極大提高分類器的能力。總之就是增強了特徵的表達能力,或者說更容易線性可分。

2離散特徵的增加和減少都很容易,模型也不需要調整,相比貝葉斯推斷方法或者樹模型方法易於模型的快速迭代;

3離散化後的特徵對異常資料有很強的魯棒性。在雜訊很大的環境中,離散化可以降低特徵中包含的雜訊,提公升特徵的表達能力。但是如何離散化是乙個非常重要的步驟。不同的離散化方法會帶來非常大的效能差異。

4邏輯回歸屬於廣義線性模型,表達能力受限;單變數離散化為n個後,每個變數有單獨的權重,相當於為模型引入了非線性,能夠提公升模型表達能力,加大擬合;

5離散化後可以進行特徵交叉,由m+n個變數變為m*n個變數,進一步引入非線性,提公升表達能力;

6特徵離散化後,模型會更穩定,比如如果對使用者年齡離散化,20-30作為乙個區間,不會因為乙個使用者年齡長了一歲就變成乙個完全不同的人;

7特徵離散化以後,獲得相當效果下模型結構簡化,起到了簡化了邏輯回歸模型的作用,降低了模型過擬合的風險;

8稀疏向量內積乘法運算速度快,計算結果方便儲存,容易擴充套件。

參考

連續特徵離散化

參考知乎使用者 在工業界,很少直接將連續值作為邏輯回歸模型的特徵輸入,而是將連續特徵離散化為一系列0 1特徵交給邏輯回歸模型,這樣做的優勢有以下幾點 離散特徵的增加和減少都很容易,易於模型的快速迭代 這個點理解 稀疏向量內積乘法運算速度快,計算結果方便儲存,容易擴充套件 離散化後的特徵對異常資料有很...

為什麼要將連續特徵離散化

在工業界,很少直接將連續值作為邏輯回歸模型的特徵輸入,而是將連續特徵離散化為一系列0 1特徵交給邏輯回歸模型,這樣做的優勢有以下幾點 0.離散特徵的增加和減少都很容易,易於模型的快速迭代 1.稀疏向量內積乘法運算速度快,計算結果方便儲存,容易擴充套件 2.離散化後的特徵對異常資料有很強的魯棒性 比如...

特徵離散化

在工業界,很少直接將連續值作為邏輯回歸模型的特徵輸入,而是將連續特徵離散化為一系列0 1特徵交給邏輯回歸模型,這樣做的優勢有以下幾點 0.離散特徵的增加和減少都很容易,易於模型的快速迭代 1.稀疏向量內積乘法運算速度快,計算結果方便儲存,容易擴充套件 2.離散化後的特徵對異常資料有很強的魯棒性 比如...