單個神經元可以解決二分類問題和線性可分問題,下面就這兩個問題展開討論。
如果輸出激勵函式採用sigmoid或hyperbolic tangent函式,此時神經元的作用等價於計算條件概率p(
y=1|
x),當上述條件概率大於0.5時,將樣本歸為
1 類,否則歸為
0類。當然,如果是hyperbolic tangent函式的話,則分別歸為
1 類和−1
類。此時,亦稱作logistic 回歸。
w 是分類超平面的法向量,
b是控制超平面的位置,因此我們總能找到一組合適的引數
w 和
b,使得其確定的超平面可以將兩類資料點分開,亦即單個神經元可以解決線性可分問題。
異或問題是典型的線性不可分問題,其影象如下:
我們找不到任何一條直線,可以將兩類資料點分開,因此,不存在對應的分類超平面,自然也就找不到相應的引數
w 和
b,亦即單個神經元無法解決線性不可分問題。
為了解決這個線性不可分問題,可以將輸入
x 對映到另外乙個線性可分的空間裡,再在這個線性可分的空間裡尋找分類超平面。
如上圖所示,我們把輸入(x
1,x2
)對映到(a
nd(x
1,x¯
2),a
nd(x
¯1,x
2)) 空間,此時我們發現原空間中的兩個圓圈類別被對映到乙個位置,而兩個三角形類別的資料點則是被互換了位置,這樣就把乙個線性不可分問題轉化為乙個線性可分問題,最終加以解決。
於是我們得出結論:單個神經元只能解決線性可分問題,對於線性不可分問題,則必須通過其他神經元的對映才可能解決。
上面談到單個神經網路無法解決線性不可分問題,這就意味著必須解決多神經元連線時的表示和計算問題。
單隱層神經網路是最簡單的神經網路,其典型結構如下:
其中最底層的x1
,...
,xj,
...x
d 為輸入向量,中間為隱藏層,最上面為輸出層。
隱藏層的預激勵為:a(
x)j=
b(1)
j+∑i
w(1)
ijxi
若寫成向量形式,即為:a(
x)=b
(1)+
w(1)
tx於是,隱藏層的激勵為:h(
x)=g
(a(x
))此神經網路的最終輸出為:f(
x)=o
(b(2
)+w(
2)th
(x))
下面討論在上述公式中,各變數的維度問題。假設輸入向量的維度為
d ,隱藏層有
m個神經元,則各變數的維度如下表:
變數名稱
維度用途
x d
×1輸入向量w(
1)d×
m 權重矩陣,控制輸入向量向隱層對映b(
1)m×
1 輸入向量向隱層對映的偏置向量a(
x)m×
1 隱層的預激勵w(
2)m×
1 控制隱層向輸出層對映的權重向量b(
2)1×
1 隱層向輸出層對映的偏置向量f(
x)1×
1 最終輸出激勵
求解一多分類問題,我們需要:
現有乙個
c 分類問題,即c∈
,為了解決這個多分類問題,我們定義softmax激勵函式為o(
a)=s
oftm
ax(a
)=[e
a1∑c
eac,
ea2∑
ceac
,...
,eac
∑cea
c]t
softmax激勵函式可以很好地滿足以上兩個要求。其主要特徵有:
機器學習筆記(二) 神經網路
神將網路在解決多分類問題時效果比logistics回歸的效果要好,作為現在最流行的機器學習演算法,我們首先來簡單了解一下 和我們人的神經組成一樣,神將網路也是由神經元組成,先來介紹最普遍的mp神經元。在生物的神經網路中,假設一些神經元處於興奮狀態,那麼這些神經元就會向與之相連線的神經元傳送化學物質,...
神經網路學習筆記
隱含層數越多,越容易擬合複雜函式 為了擬合複雜函式需要的隱含節點數目,基本上隨著隱含層數目的增加呈現指數下降的趨勢,也就是說層數越多,神經網路所需要的隱含節點可以越少。層數越深,概念越抽象,需要背誦的知識點 神經網路的隱含節點 就越少。但是,層數越多,容易出現過擬合以及引數難以除錯以及梯度瀰散的問題...
神經網路學習筆記
sigmoid函式是一種常見的擠壓函式,其將較大範圍的輸入擠壓到 0 1 區間內,其函式的表示式與形狀如下圖所示 該函式常被用於分類模型,因為其具有很好的乙個特性f x f x 1 f x 這個函式也會被用於下面的神經網路模型中做啟用函式。生物的神經網路系統中,最簡單最基本的結構是神經元。每個神經元...