模型:線性分類模型(屬於判別模型),策略: 演算法: 梯度下降法
由輸入空間到輸出空間的函式:f(
x)=s
ign(
wx+b
) f(x
)=si
gn(w
x+b)
,其中w是權值向量,b是偏置。wx
+b=0
w x+
b=
0對應特徵空間中的乙個超平面s,w是超平面的法向量,b是超平面的截距。這個超平面將特徵空間劃分為兩個部分,位於兩部分的點分別被分為正負兩類,因此超平面s被稱為分離超平面。
前提假設:資料線性可分,感知機學習的經驗風險函式為:l(
w,b)
=−∑x
i∈my
i(wx
i+b)
l (w
,b)=
−∑xi
∈myi
(wxi
+b
),其中m為誤分類點的集合。
經驗風險函式為什麼選擇這個,而不是誤分類點的總數?
因為選擇誤分類點的總數作為損失函式不是引數w,b的連續可導函式,不易優化,因此選擇了誤分類樣本點到超平面的函式間隔之和。
感知機的學習策略是在假設空間中選取使損失函式式最小的模型引數w,
b w,
b,即感知機模型。
1.感知機學習演算法的原始形式
梯度下降法,具體來說,∇w
l(w,
b)=−
∑xi∈
myix
i ∇wl
(w,b
)=−∑
xi∈m
yixi
,∇bl(w,
b)=−
∑xi∈
myi ∇bl
(w,b
)=−∑
xi∈m
yi
.然後隨機選取乙個誤分類點(x
i,yi
) (xi,
yi
),來對w,b進行更新:w←
w+ηy
ixi w←w
+ηyi
xi
,b←b+ηy
i b←b
+ηyi
,其中\eta(0
<η⩽
1)(
0<η⩽
1)
是步長,也稱為學習率。這樣,通過迭代可以使得損失函式不斷減小直到為0. 注意:每次都在更新之後檢查是否有誤分類點,並在誤分類點中再挑選。
感知機學習演算法由於採用不同的儲值或選取不同的誤分類點,解可以不同。
當資料線性可分時,感知機演算法收斂,且最大迭代次數k滿足公式k⩽
(rγ)
2 k⩽(r
γ)
2. 2.感知機學習演算法的對偶形式
對偶形式的基本想法是,將w和b表示為例項xi
x
i和標記yi y
i的線性組合的形式,通過求解其係數而求得w和b. w=
∑i=1
nαiy
ixi w=∑
i=1n
αiyi
xi
,b=∑i=1
nαiy
i b=∑
i=1n
αiyi
α=niη
α =n
iη
,不斷更新α=
α+η α=α
+η
即可。總結:在學習了前一章統計學習三要素之後,我們學習每乙個演算法都可以從這三要素著手,比如這裡的模型是線性模型,策略是經驗風險最小化,其中損失函式是誤分類到分離超平面的函式距離之和,演算法是梯度下降法。
統計學習方法 第二章 感知機
感知機是二分類的線性分類模型,輸入是例項的特徵x rn,輸出是例項的類別 感知機對應於輸入空間中將例項劃分為正負兩類的分離超平面,屬於判別模型。感知機學習旨在求出將訓練資料進行線性劃分的分離超平面,為此,匯入基於誤分類的損失函式,利用梯度下降法對損失函式進行極小化,求得感知機模型。假設輸入空間 特徵...
統計學習方法(第二章)感知機
1 什麼是感知機 在 機器學習中,感知機 perceptron 是二分類的線性分類模型,屬於監督學習演算法。輸入為例項的特徵向量,輸出為例項的類別 取 1和 1 感知機對應於輸入空間中將例項劃分為兩類的分離超平面。感知機旨在求出該超平面,為求得超平面匯入了基於誤分類的損失函式,利用梯度下降法 對損失...
《統計學習方法》 第二章 感知機
1 感知機定義 2 幾何解釋 1 資料集的線性可分性 2 感知機的學習策略 感知機的學習策略是 在假設空間中選取損失函式最小的模型。1 感知機學習演算法的原始形式 第三步 重複第 二 三兩步直到訓練集上沒有錯誤樣本點.該演算法的直觀解釋 2 感知機學習演算法的對偶形式 注意 書中的演算法過程使用b ...