邏輯回歸處理非線性特徵,特徵離散化以及高維稀疏特徵

2021-09-20 09:38:04 字數 1932 閱讀 2843

我們都知道邏輯回歸是個線性分類器,它的分類器形式為:

f (x

)=θ1

x1+θ

2x2+

....

+θnx

nf(x)=\theta_1x_1+\theta_2x_2+....+\theta_nx_n

f(x)=θ

1​x1

​+θ2

​x2​

+...

.+θn

​xn​

所說的線性是關於引數θ

\theta

θ的線性,雖然它會經過乙個sigmoid函式的對映,加入對映之後,會演變成:

$h θ(

x)=1

/(1+

e−θt

x)

h_\theta(x)=1/(1+e^x})

hθ​(x)

=1/(

1+e−

θtx)

如果分類的平面是乙個線性平面,那麼邏輯回歸模型關於引數x和θ

\theta

θ都將是線性的;

如果分類的平面不是乙個線性平面,那麼邏輯回歸關於引數x是非線性的,對於引數θ

\theta

θ仍然是線性的。假設我們對於這些x做一些轉換:

x 1=

x12,

x2=x

2x_1=x_1^, x_2=x_2

x1​=x1

2​,x

2​=x

2​所以對於非線性特徵,也是選取對映函式的問題,使得x1′

=γ(x

)x_1^=\gamma(x)

x1′​=γ

(x),剩下的工作就是構造這樣的對映關係。

這裡不得不提一下svm,svm如果不採用核函式,那麼和邏輯回歸一樣,需要在對映的高維空間中顯性地定義對映關係。如果採用核函式的方法去處理,核函式可以在低維空間中進行點積的計算,然後對映到高維空間中。

特徵離散化:

特徵的連續值在不同的區間重要程度是不一樣的,所以希望連續特徵在不同的區間有不同的權重,實現的方法是對於特徵進行劃分區間,然後每乙個區間為乙個新的特徵。

特徵離散化的好處:

稀疏矩陣利用計算和儲存,有助於擴充套件性;

魯棒性更強,區間大於30為1的話,取值300也不會有很大的影響,對於異常點的處理更好,不受雜訊影響;

將乙個特徵離散化為多個區間特徵的話,每乙個區間特徵都擁有了乙個新的權重,相當於為模型引入了非線性,增強了表達能力;

這是我阿里的面試題,邏輯回歸和gbdt對於高維的稀疏特徵選擇哪個,我竟然說因為這個0,1類似於二叉樹,所以尋找gdbt,我太笨了,看了一下知乎,發現應該選擇邏輯回歸,說對於高維稀疏特徵,邏輯回歸的效果更好,分析有下面幾種原因:

1:舉個例子,對於高維稀疏的特徵,剛好有10個樣本的標籤為1,剛好它的f1特徵為1,其餘的990個特徵都為0,採用gbdt的話,直接選擇f1特徵為**點,擬合出一顆樹,但是對於測試集來說的話,效果會是非常差的。如果採用邏輯回歸來計算的話,得到的式子會是:y=w

1∗f1

+w2∗

f2+.

...+

wn∗f

ny=w1*f1+w2*f2+....+wn*fn

y=w1∗f

1+w2

∗f2+

....

+wn∗

fn,權重w1會比較大,但是f1的取值為0和1,對其他的樣本沒有特別大的影響。

2:正則化的方式。邏輯回歸的正則化方式是對權重的懲罰,會限制不會使得w1過大,而樹的模型的正則化是對葉子的數目和樹的深度進行懲罰,如果按照上面的例子,乙個特徵就能分類,使得懲罰項會非常的小。所以,帶正則化的線性模型要比樹模型的效果更好,更不容易過擬合。

3:根據樹形結構就是不斷地對特徵空間進行劃分,對於稀疏特徵,不容易劃分,而邏輯回歸擬合出乙個分離超平面,相對來說沒那麼容易過擬合。

邏輯回歸的特徵離散化

很多時候我們在做評分卡的時候,需要對資料進行離散化。那麼邏輯回歸為什麼要進行特徵離散化呢?主要是由於以下幾個原因 1 模型穩定性和魯棒性。離散後的特徵能夠去除雜訊,對異常值不再敏感,可以加強模型的穩定性。例如在評分卡中有乙個變數收入手機使用時長5000個月,這個資料明顯異常,但是我們對變數分箱以後,...

線性特徵與非線性特徵 線性模型與非線性模型

這是個見仁見智的問題,也就是說,它似乎沒有乙個確定的答案,因而我們不糾結於到底把這個模型稱作 線性model or 非線性model 從這麼僵化的論戰裡跳脫出來,好好掰扯一下這個問題 若我們的樣本是線性可分的,那麼我們直接使用線性model就可以解決分類問題,如lr。下圖是lr的決策邊界示意圖 最後...

多特徵線性回歸

一,單一特徵線性回歸二,多特徵線性回歸 當有很多因素來決定房價的時候,如圖 我們就需要更多的未知數和係數來表示結果,在這之前需要普及一些表示式的含義,如圖 n表示影響因素 特徵向量 的個數,m表示元組個數,上標 i 表示第i個元組,我們可以用矩陣來表示,下標j表示第j個因素 特徵向量 同單一特徵線性...