感知機是二元分類的線性分類模型,目的是求出乙個分離超平面,利用梯度下降法對代價函式進行最小化 ;
感知機的數學模型可由下列表示式給出:
f(x) = sign( wx + b) ;
其中 w 為權值向量,是分離超平面 (wx + b = 0 )的法向量,b 為截距(bias),sign(x)為符號函式:x > =0,輸出 +1;反之,輸出 -1
資料集的線性可分性
如果存在乙個超平面 wx + b = 0 ,可以完全正確的將正負資料集分開,則稱為線性可分的;否則,線性不可分;
學習策略
感知機的經驗損失是所有誤分類點到分離超平面的距離之和,其中某個誤分類點到分離超平面的距離為:
− yi
∗(w∗
xi+b
)- y_i* (w * x_i + b )
−yi∗(
w∗xi
+b)
; 為乙個非負值 ;
代價函式表示式為 l(w,b) = −∑i
=1ny
i∗(w
∗xi+
b)
-\displaystyle\sum_^y_i* (w * x_i + b )
−i=1∑n
yi
∗(w∗
xi+
b);原始形式
選取初始值 w0、b0 ;
從訓練集中隨機選取乙個資料(x(i),y(i));
若 y i∗
(w∗x
i+b)
≤0
y_i * (w*x_i + b) \leq 0
yi∗(w
∗xi
+b)≤
0 (即誤分類),感知機採用隨機梯度下降法對w及b進行更新,按照下式進行更新:
w = w + a∗y
ix
ia*y_ix_i
a∗yix
i;b = b + ηyi
\eta y_i
ηyi
;其中,η
\eta
η為學習速率,由於w、b 是按照梯度的方向進行增減,所以可以期待代價函式最終會收斂到乙個區域性
回到步驟2 ,直至沒有誤分類點;
根據選擇的初值及每次所選擇的誤分類點不同,最終得到的結果也會不同;
演算法的收斂性
對於線性可分資料集,有下列 novikoff 定理:
存在滿足條件的||wop
tw_
wopt
|| = 1的超平面 wop
tw_
wopt
x + b = 0 將資料集完全正確的分開,且對於所有的樣本點,存在λ
\lambda
λ > 0,有
y i(
wopt
∗xi+
b)≥λ
y_ (w_* x_i + b)\geq\lambda
yi(wo
pt∗
xi+
b)≥λ
;迭代的次數 k 滿足: k≤(
rλ)2
k \leq(\frac)^2
k≤(λr
)2;其中 r 為輸入向量中最大的模值;
以上定理說明了誤分類次數 k 是有上界的,但是不存在唯一的解,在svm中就加了約束條件後,才有唯一的解;當資料集線性不可分時,感知機就不會收斂,迭代結果發生振盪;
對偶形式
對偶形式與原始形式的區別:
(?)感知機的對偶形式的主要目的是針對那些維度很高的輸入,可以有效降低演算法的運算複雜度,因為每次判定某個點是否誤判時,需要的資料都是輸入例項的內積形式,而這個可以事先通過計算gram 矩陣來實現;
統計學習方法學習筆記(第二章 感知機)
感知機是二類分類的線性分類模型。感知機是一種線性分類模型,屬於判別模型。感知機模型的假設空間是定義在特徵空間中的所有線性分類模型或線性分類器。超平面 稱為分離超平面 separating hyperplane 資料集的線性可分性。感知機所採用的損失函式是誤分類點到超平面 的總距離。感知機問題演算法是...
統計學習方法 第二章 感知機
感知機是二分類的線性分類模型,輸入是例項的特徵x rn,輸出是例項的類別 感知機對應於輸入空間中將例項劃分為正負兩類的分離超平面,屬於判別模型。感知機學習旨在求出將訓練資料進行線性劃分的分離超平面,為此,匯入基於誤分類的損失函式,利用梯度下降法對損失函式進行極小化,求得感知機模型。假設輸入空間 特徵...
統計學習方法(第二章)感知機
1 什麼是感知機 在 機器學習中,感知機 perceptron 是二分類的線性分類模型,屬於監督學習演算法。輸入為例項的特徵向量,輸出為例項的類別 取 1和 1 感知機對應於輸入空間中將例項劃分為兩類的分離超平面。感知機旨在求出該超平面,為求得超平面匯入了基於誤分類的損失函式,利用梯度下降法 對損失...