先介紹乙個分布:邏輯斯諦分布。
設 $x$ 是連續隨機變數,且 $x$ 具有以下分布函式和概率密度:
$$f(x) = p(x \leq x) = \frac}} \\
f(x) = f^(x) = \frac}}})^}$$
其中,$\mu$ 是隨機變數的數學期望,$\lambda > 0$
是形狀引數。
由圖可以看出,邏輯斯諦分布和高斯分布的密度函式長得差不多。特別注意邏輯斯諦分布的概率密度函式自中心附近增長速度較快,而
在兩端的增長速度相對較慢。形狀引數 $\lambda$ 的值越小,$f(x)$ 在中心附近增長的越快。
邏輯斯諦回歸的英文是:
logistic regression,下面簡稱其為 lr 回歸。
種分類模型。對線性模型進行分類如二分類任務,簡單的是通過階躍函式($sgn$ 函式),即將線性模型的輸出值套上乙個函式進行分割,但這樣的
分段函式數
學性質不好,既不連續也不可微。
因此有人提出了對數機率函式,見上圖,簡稱 $sigmoid$ 函式。
$$y = \frac} = \frac}}$$
該函式具有很好的數學性質,既可以用於**類別,並且任意階可微,因此可用於求解最優解。這個函式能夠將輸出壓縮在 $0-1$ 之間。
將分類超平面方程代入函式,可得:
$$y = \fracx+b)}} = \fracx+b}}x+b}}$$
函式的輸出 $y$ 是有概率意味的,表達的是:當前測試樣本屬於類別 $1$ 的概率。
由上可知:
$$1 - y = \fracx+b)}}x+b)}} = \fracx+b}}$$
若將$y$ 視為樣本$x$ 作為正例的可能性,則$1-y$ 是其反例的可能性,兩者的比值稱為機率(odds),反映了$x$ 作為正例的相對可能性。
對機率取對數則得到對數機率:
$$\ln \frac = w^x+b$$
可以看出得到的超平面方程就是對數機率。將上面全部寫成概率形式就是:
$$p(y = 1 \;|\; x = x) = \fracx+b)}} = \fracx+b}}x+b}}$$
$$p(y = 0 \;|\; x = x) = \fracx+b)}}x+b)}} = \fracx+b}}$$
$$\ln \frac = w^x+b$$
那如何**輸出呢?
對於給定的輸入例項 $x$,比較 $p(y = 1 \;|\; x = x), p(y = 0 \;|\; x = x)$ 這兩個條件概率的大小,將例項 $x$ 分到概率值較大的那一類。
從上面的過程可以看出,似乎是直接將 $sigmoid$ 函式的輸出當成了概率,下面用貝葉斯公式推導一下:
$$p(y = 1 \;|\; x = x) = \frac \\
= \frac \\
= \frac}
= \frac}} \\
= \frac}} = \frac}}$$
這個概率形式就和 $sigmoid$ 的函式形式很像。所以說邏輯回歸的模型表示式是有概率的原理在裡面的,但前提是$w^x + b$ 這個回歸表示式擬合的
是對數機率這種東西。也就是說最終訓練出的$w^x + b$ 要使得這個線性回歸表示式的輸出為訓練樣本的對數機率。
那感受一下超平面方程能不能體現對數機率呢?
是可以的,不然這個模型也就不成立了。當點在超平面上時,分到正類還是負類的概率是相等的,所以相對機率就是 $0$,超平面方程輸出也是 $0$,
所以兩者是契合的。
模型引數估計
採用極大似然估計來求得引數 $w,b$。對於給定的訓練資料集:
$$t = \left \,y_),(x_,y_),...,(x_,y_)\right \}$$
設:$$p(y = 1 \;|\; x = x) = \pi(x) \\
p(y = 0 \;|\; x = x) = 1 - \pi(x)$$
則似然函式或這組樣本出現的概率為:
$$l(w,b) = \prod_^[\pi(x_)]^}[1-\pi(x_)]^}$$
這個式子的意思是,對於每乙個樣本來說,找到引數使其屬於真實標記的概率最大。
$$\ln l(w,b) = \sum_^\left [\; y_\ln \pi(x_) + (1-y_)\ln(1-\pi(x_) ) \;\right ] \\
= \sum_^\left [\; y_\ln \frac)})} + \ln(1-\pi(x_) ) \;\right ] \\
= \sum_^\left [\; y_(w^x_+b) - \ln(1+e^x_ + b} ) \;\right ]$$
記$$\hat = \begin
w\\
b\end ,\;
\hat_ = \begin
x_\\
1\end$$
所以有:
$$\ln l(w,b) = \sum_^\left [\; y_(\hat^\hat_) - \ln(1+e^^\hat_} ) \;\right ]$$
故損失函式為
$$j(\hat) = \sum_^\left [\; -y_(\hat^\hat_) + \ln(1+e^^\hat_} ) \;\right ]$$
邏輯斯諦回歸學習中通常採用的方法是梯度下降法及擬牛頓法。下面介紹通過梯度下降法求解過程。
求偏導得:
$$\frac} = \sum_^\left [ \; -y_\hat} + \frac^\hat_}}^\hat_}}\hat} \; \right ] = \sum_^\left [ \; -y_ + \pi(\hat}) \; \right ]\hat}$$
這裡的 $y_$ 是樣本點的輸出,只有 $0,1$ 兩個值,不是概率,$\pi(\hat})$ 為樣本輸出為正類的概率。
在使用梯度下降法求解時,每次迭代地更新公式為:
$$\hat = \hat - \sum_^\left [ \; -y_ + \pi(\hat}) \; \right ]\hat}$$
邏輯斯諦回歸模型
logistic分布函式形式 在該方程式中,x是隨機變數,是平均值,s是與標準偏差成比例的比例引數。這個方程我們只需要了解,在邏輯回歸模型中真正用到的是sigmoid函式 當上式中的 0,s 1時,即為sigmoid函式 s z 11 e z s z frac s z 1 e z 1 邏輯回歸 lo...
邏輯斯諦回歸學習總結
邏輯斯諦回歸模型是對數線性模型的推理 邏輯斯諦分布函式f x p x x 11 e x 邏輯斯諦的密度函式是f x f x e x 1 e x 2該曲線以點 12 為中心對對稱。曲線在中心附近增長速度較快,在兩端增長速度較慢。的值越小,曲線在中心附近增長得越快。二項邏輯斯諦回歸模型的條件概率分布 p...
機器學習與資料探勘之邏輯斯諦回歸
機器學習與資料探勘參考文獻 一 二項邏輯斯諦回歸模型 二項邏輯斯諦回歸模型是如下的條件概率分布 這裡,x rn是輸入,y 是輸出,w rn和b r是引數,w稱為權值向量,b稱為偏置,w x為w和x的內積。有時為了方便,將權值向量和輸入向量加以擴充,仍記作w,x,即w w 1 w 2 w n b t,...