證明的前提是訓練資料集線性可分。現在我們想證明感知機模型是會收斂的,也就是說錯誤訓練樣例的個數存在乙個上限。這個定理是novikoff在2023年時給予證明的,我閱讀其**和李航的統計學習方法之後自己進行了推導。
首先,如果訓練資料集線性可分,那麼所有訓練資料點到分離超平面的距離存在乙個最短距離,我們記為
γ ,為了我們對分離超平面的引數的記法進行修改w^
=[wt
b]t,
x^=[
xt1]
t ,這樣分離超平面可以寫成w^
x^=0
,令最終的分離超平面為w^
∗ 且其範數為1。這裡我們使用乙個重要的不等式進行證明——柯西不等式,我們這樣使用w^
⋅w^∗
≤||w
^||⋅
||w^
∗||
這裡使用迭代的思想來證明,當演算法迭代到第k次時w^
kw^∗
=(w^
k−1+
x^ty
t)w^
∗≥w^
k−1w
^∗+γ
≥⋯≥k
γ 其中第乙個等號根據梯度下降法中引數的迭代步驟,第乙個不等號根據任何資料點到最終分離超平面距離存在最小值。||
w^k|
|2==
≤≤≤|
|w^k
−1+x
^tyt
||2|
|w^k
−1||
2+2(
w^k−
1x^t
yt)+
||x^
t||2
||w^
k−1|
|2+|
|x^t
||2|
|w^k
−1||
2+r2
⋯≤kr
2 其中第乙個等號根據梯度下降法中引數的迭代,第二個不等號根據y的2次方為1(y=-1|1),第乙個不等號根據誤分類樣本t滿足w^
k−1x
^tyt
<
0 ,第二個不等號是令r=
max|
|x^t
||,這樣柯西不等式可以寫成kγ
≤w^⋅
w^∗≤
||w^
||⋅|
|w^∗
||≤k
√r其中第三個不等號成立因為最終分離超平面的引數w的範數為1。綜上獲得這樣的不等式k≤
r2γ2
說明錯誤分類次數存在乙個上限值,演算法最終的錯誤分類次數達到上限時就會收斂。因此如果資料線性可分,那麼感知機模型確實會收斂。
感知機章節課後習題 證明感知機演算法收斂性
看了下統計學習方法p36 的3個習題,試著做了下,下面給出自己的解答 有不對的地方歡迎提出 q 2.1 感知機是線性模型,因此不能表示複雜的函式。請解釋感知機為什麼不能學習異或xor函式?下面這個 釋的很清楚 訓練集線性不可分,當然不能用感知機表示出xor函式。q 2.2 模仿書中2.1例,構建從訓...
梯度下降法推導,凸函式,收斂性推導
1.梯度下降法的收斂性 針對迭代式演算法,我們就要convergency analysis 收斂性分析 1 什麼是平滑函式,非平滑函式?平滑函式 在每個點上求出梯度 非平滑函式 在那個點上求不出梯度的,l lipschitz條件 是針對平滑函式的條件 logistic regression line...
迭代演算法的收斂性
迭代 演算法必須 收斂,所 產生的極 小化序列 xk具有 這樣的性 質 或者 序列中的 某一點就 是極小點 x 或 者序列收 斂於極小 點x 即滿足迭 代演算法必 須收斂,所產生的 極小化序 列xk具 有這樣的 性質 或 者序列中 的某一點 就是極小 點x 或者序列 收斂於極 小點x 即滿足 容易證...