面試題 邏輯回歸LR的特徵為什麼要先離散化

2021-10-04 08:59:18 字數 533 閱讀 9588

在工業界,很少直接將連續值作為特徵餵給邏輯回歸模型,而是將連續特徵離散化為一系列0,1特徵交給邏輯回歸模型,這樣做的優勢有以下幾點:

1. 稀疏向量內積乘法運算速度非常快,計算結果方便儲存,容易scalable(擴充套件)。

2. 離散化後的特徵對異常資料有很強的魯棒性: 比如乙個特徵是年齡》30是1,否則是0。如果特徵沒有離散化,乙個異常資料"年齡300歲"會給模型造成很大的干擾。

3. 邏輯回歸屬於廣義線性模型,表達能力有限,單變數離散化為n個後,每個變數有單獨的權重,相當於為模型引入了非線性,能夠提公升模型表達能力,加大擬合。

4. 離散化後可以進行特徵交叉,由m+n個變數變為m*n個變數,進一步引入非線性,提公升表達能力。

5. 特徵離散化後,模型會更加穩定,比如如果對使用者年齡離散化,20-30作為乙個區間,不會因為乙個使用者年齡長了一歲就變成完全不同的人。當然處理區間相鄰處的樣本會剛好相反,所以怎麼劃分區間是門學問。

大概的理解:

1). 計算簡單

2). 簡化模型

3). 增強模型的泛化能力,不易受雜訊的影響。

資料探勘面試題之邏輯回歸lr

邏輯回歸假設資料服從伯努利分布 0 1 通過極大化似然函式的方法,運用梯度下降來求解引數,來達到將資料二分類的目的。1 去掉高度相關的特徵會讓模型的可解釋性更好 2 可以大大提高訓練的速度。如果模型當中有很多特徵高度相關的話,就算損失函式本身收斂了,但實際上引數是沒有收斂的,這樣會拉低訓練的速度。其...

邏輯回歸LR的特徵為什麼要先離散化

在工業界,很少直接將連續值作為特徵餵給邏輯回歸模型,而是將連續特徵離散化為一系列0 1特徵交給邏輯回歸模型,這樣做的優勢有以下幾點 1.稀疏向量內積乘法運算速度快,計算結果方便儲存,容易scalable 擴充套件 2.離散化後的特徵對異常資料有很強的魯棒性 比如乙個特徵是年齡 30是1,否則0。如果...

邏輯回歸LR的特徵為什麼要先離散化

在工業界,很少直接將連續值作為特徵餵給邏輯回歸模型,而是將連續特徵離散化為一系列0 1特徵交給邏輯回歸模型,這樣做的優勢有以下幾點 1.稀疏向量內積乘法運算速度快,計算結果方便儲存,容易scalable 擴充套件 2.離散化後的特徵對異常資料有很強的魯棒性 比如乙個特徵是年齡 30是1,否則0。如果...