邏輯回歸的特徵離散化

2021-09-14 07:45:19 字數 385 閱讀 8761

很多時候我們在做評分卡的時候,需要對資料進行離散化。那麼邏輯回歸為什麼要進行特徵離散化呢?

主要是由於以下幾個原因:

1、模型穩定性和魯棒性。離散後的特徵能夠去除雜訊,對異常值不再敏感,可以加強模型的穩定性。例如在評分卡中有乙個變數收入手機使用時長5000個月,這個資料明顯異常,但是我們對變數分箱以後,例如》50是乙個分箱,那麼這個值對模型的**結果就沒有太大的影響了。分箱後,不會出現乙個變數使用月份增加1個月就變了乙個人的情況。

2、簡化模型:特徵離散化後就降低了樣本中的個別資訊對模型的影響,降低模型的過擬合的風險。

3、計算更快速:更少的變數會運算複雜的大大降低,加快計算速度。

4、易於解釋性:在評分卡中我們通常要求分箱的變數具有單調性或u型。這就方便我們對業務的解釋能力。

邏輯回歸處理非線性特徵,特徵離散化以及高維稀疏特徵

我們都知道邏輯回歸是個線性分類器,它的分類器形式為 f x 1 x1 2x2 nx nf x theta 1x 1 theta 2x 2 theta nx n f x 1 x1 2 x2 n xn 所說的線性是關於引數 theta 的線性,雖然它會經過乙個sigmoid函式的對映,加入對映之後,會演...

邏輯回歸LR的特徵為什麼要先離散化

在工業界,很少直接將連續值作為特徵餵給邏輯回歸模型,而是將連續特徵離散化為一系列0 1特徵交給邏輯回歸模型,這樣做的優勢有以下幾點 1.稀疏向量內積乘法運算速度快,計算結果方便儲存,容易scalable 擴充套件 2.離散化後的特徵對異常資料有很強的魯棒性 比如乙個特徵是年齡 30是1,否則0。如果...

邏輯回歸LR的特徵為什麼要先離散化

在工業界,很少直接將連續值作為特徵餵給邏輯回歸模型,而是將連續特徵離散化為一系列0 1特徵交給邏輯回歸模型,這樣做的優勢有以下幾點 1.稀疏向量內積乘法運算速度快,計算結果方便儲存,容易scalable 擴充套件 2.離散化後的特徵對異常資料有很強的魯棒性 比如乙個特徵是年齡 30是1,否則0。如果...