我們都知道邏輯回歸是個線性分類器,它的分類器形式為:
f (x
)=θ1
x1+θ
2x2+
....
+θnx
nf(x)=\theta_1x_1+\theta_2x_2+....+\theta_nx_n
f(x)=θ
1x1
+θ2
x2
+...
.+θn
xn
所說的線性是關於引數θ
\theta
θ的線性,雖然它會經過乙個sigmoid函式的對映,加入對映之後,會演變成:
$h θ(
x)=1
/(1+
e−θt
x)
h_\theta(x)=1/(1+e^x})
hθ(x)
=1/(
1+e−
θtx)
如果分類的平面是乙個線性平面,那麼邏輯回歸模型關於引數x和θ
\theta
θ都將是線性的;
如果分類的平面不是乙個線性平面,那麼邏輯回歸關於引數x是非線性的,對於引數θ
\theta
θ仍然是線性的。假設我們對於這些x做一些轉換:
x 1=
x12,
x2=x
2x_1=x_1^, x_2=x_2
x1=x1
2,x
2=x
2所以對於非線性特徵,也是選取對映函式的問題,使得x1′
=γ(x
)x_1^=\gamma(x)
x1′=γ
(x),剩下的工作就是構造這樣的對映關係。
這裡不得不提一下svm,svm如果不採用核函式,那麼和邏輯回歸一樣,需要在對映的高維空間中顯性地定義對映關係。如果採用核函式的方法去處理,核函式可以在低維空間中進行點積的計算,然後對映到高維空間中。
特徵離散化:
特徵的連續值在不同的區間重要程度是不一樣的,所以希望連續特徵在不同的區間有不同的權重,實現的方法是對於特徵進行劃分區間,然後每乙個區間為乙個新的特徵。
特徵離散化的好處:
稀疏矩陣利用計算和儲存,有助於擴充套件性;
魯棒性更強,區間大於30為1的話,取值300也不會有很大的影響,對於異常點的處理更好,不受雜訊影響;
將乙個特徵離散化為多個區間特徵的話,每乙個區間特徵都擁有了乙個新的權重,相當於為模型引入了非線性,增強了表達能力;
這是我阿里的面試題,邏輯回歸和gbdt對於高維的稀疏特徵選擇哪個,我竟然說因為這個0,1類似於二叉樹,所以尋找gdbt,我太笨了,看了一下知乎,發現應該選擇邏輯回歸,說對於高維稀疏特徵,邏輯回歸的效果更好,分析有下面幾種原因:
1:舉個例子,對於高維稀疏的特徵,剛好有10個樣本的標籤為1,剛好它的f1特徵為1,其餘的990個特徵都為0,採用gbdt的話,直接選擇f1特徵為**點,擬合出一顆樹,但是對於測試集來說的話,效果會是非常差的。如果採用邏輯回歸來計算的話,得到的式子會是:y=w
1∗f1
+w2∗
f2+.
...+
wn∗f
ny=w1*f1+w2*f2+....+wn*fn
y=w1∗f
1+w2
∗f2+
....
+wn∗
fn,權重w1會比較大,但是f1的取值為0和1,對其他的樣本沒有特別大的影響。
2:正則化的方式。邏輯回歸的正則化方式是對權重的懲罰,會限制不會使得w1過大,而樹的模型的正則化是對葉子的數目和樹的深度進行懲罰,如果按照上面的例子,乙個特徵就能分類,使得懲罰項會非常的小。所以,帶正則化的線性模型要比樹模型的效果更好,更不容易過擬合。
3:根據樹形結構就是不斷地對特徵空間進行劃分,對於稀疏特徵,不容易劃分,而邏輯回歸擬合出乙個分離超平面,相對來說沒那麼容易過擬合。
邏輯回歸的特徵離散化
很多時候我們在做評分卡的時候,需要對資料進行離散化。那麼邏輯回歸為什麼要進行特徵離散化呢?主要是由於以下幾個原因 1 模型穩定性和魯棒性。離散後的特徵能夠去除雜訊,對異常值不再敏感,可以加強模型的穩定性。例如在評分卡中有乙個變數收入手機使用時長5000個月,這個資料明顯異常,但是我們對變數分箱以後,...
線性特徵與非線性特徵 線性模型與非線性模型
這是個見仁見智的問題,也就是說,它似乎沒有乙個確定的答案,因而我們不糾結於到底把這個模型稱作 線性model or 非線性model 從這麼僵化的論戰裡跳脫出來,好好掰扯一下這個問題 若我們的樣本是線性可分的,那麼我們直接使用線性model就可以解決分類問題,如lr。下圖是lr的決策邊界示意圖 最後...
多特徵線性回歸
一,單一特徵線性回歸二,多特徵線性回歸 當有很多因素來決定房價的時候,如圖 我們就需要更多的未知數和係數來表示結果,在這之前需要普及一些表示式的含義,如圖 n表示影響因素 特徵向量 的個數,m表示元組個數,上標 i 表示第i個元組,我們可以用矩陣來表示,下標j表示第j個因素 特徵向量 同單一特徵線性...