感知機模型收斂性推導

2021-06-29 13:29:39 字數 1363 閱讀 7144

證明的前提是訓練資料集線性可分。現在我們想證明感知機模型是會收斂的,也就是說錯誤訓練樣例的個數存在乙個上限。這個定理是novikoff在2023年時給予證明的,我閱讀其**和李航的統計學習方法之後自己進行了推導。

首先,如果訓練資料集線性可分,那麼所有訓練資料點到分離超平面的距離存在乙個最短距離,我們記為

γ ,為了我們對分離超平面的引數的記法進行修改w^

=[wt

b]t,

x^=[

xt1]

t ,這樣分離超平面可以寫成w^

x^=0

,令最終的分離超平面為w^

∗ 且其範數為1。這裡我們使用乙個重要的不等式進行證明——柯西不等式,我們這樣使用w^

⋅w^∗

≤||w

^||⋅

||w^

∗||

這裡使用迭代的思想來證明,當演算法迭代到第k次時w^

kw^∗

=(w^

k−1+

x^ty

t)w^

∗≥w^

k−1w

^∗+γ

≥⋯≥k

γ 其中第乙個等號根據梯度下降法中引數的迭代步驟,第乙個不等號根據任何資料點到最終分離超平面距離存在最小值。||

w^k|

|2==

≤≤≤|

|w^k

−1+x

^tyt

||2|

|w^k

−1||

2+2(

w^k−

1x^t

yt)+

||x^

t||2

||w^

k−1|

|2+|

|x^t

||2|

|w^k

−1||

2+r2

⋯≤kr

2 其中第乙個等號根據梯度下降法中引數的迭代,第二個不等號根據y的2次方為1(y=-1|1),第乙個不等號根據誤分類樣本t滿足w^

k−1x

^tyt

<

0 ,第二個不等號是令r=

max|

|x^t

||,這樣柯西不等式可以寫成kγ

≤w^⋅

w^∗≤

||w^

||⋅|

|w^∗

||≤k

√r其中第三個不等號成立因為最終分離超平面的引數w的範數為1。綜上獲得這樣的不等式k≤

r2γ2

說明錯誤分類次數存在乙個上限值,演算法最終的錯誤分類次數達到上限時就會收斂。因此如果資料線性可分,那麼感知機模型確實會收斂

感知機章節課後習題 證明感知機演算法收斂性

看了下統計學習方法p36 的3個習題,試著做了下,下面給出自己的解答 有不對的地方歡迎提出 q 2.1 感知機是線性模型,因此不能表示複雜的函式。請解釋感知機為什麼不能學習異或xor函式?下面這個 釋的很清楚 訓練集線性不可分,當然不能用感知機表示出xor函式。q 2.2 模仿書中2.1例,構建從訓...

梯度下降法推導,凸函式,收斂性推導

1.梯度下降法的收斂性 針對迭代式演算法,我們就要convergency analysis 收斂性分析 1 什麼是平滑函式,非平滑函式?平滑函式 在每個點上求出梯度 非平滑函式 在那個點上求不出梯度的,l lipschitz條件 是針對平滑函式的條件 logistic regression line...

迭代演算法的收斂性

迭代 演算法必須 收斂,所 產生的極 小化序列 xk具有 這樣的性 質 或者 序列中的 某一點就 是極小點 x 或 者序列收 斂於極小 點x 即滿足迭 代演算法必 須收斂,所產生的 極小化序 列xk具 有這樣的 性質 或 者序列中 的某一點 就是極小 點x 或者序列 收斂於極 小點x 即滿足 容易證...