統計學習方法 第二章感知機 讀書筆記

2021-09-29 09:58:09 字數 1786 閱讀 2655

3、感知機學習策略

4、感知機學習演算法

5遺留問題

感知機為線性分類模型,屬於判別模型。是神經網路支援向量機的基礎。

感知機學習旨在求出將訓練資料進行線性化分的分離超平面。

感知機從輸入到輸出的模型如下:

f(x)=sign(w*x+b)

其中,w叫作權值向量,b叫作偏量,sign是符號函式。

sign(x)=+1 x>=0

sign(x)=-1 x<0

wx+b對應特徵空間中的乙個分離超平面s,其中w是s的法向量,b是s的截距。s將特徵空間劃分為兩個部分,分別為正負兩類。

如果在某個超平面s能夠將資料集的正例項點和負例項點完全正確的劃分到超平面兩側,則稱資料集為線性可分資料集(linearly separable data set)

直線方程ax+by+c=0,點p座標為(x0,y0)

d=ax0+by0+c/根號下(a^2 + b^2)

我們假設超平面h=wx+b,其中w=(w0,w1,…wm),x=(x0,x1,…xm),樣本點x『到超平面的距離如下:

d=wx』+b/||w||

||w||是w的l2範數

假設訓練集資料集是線性可分的,感知機的損失函式是誤分類點到平面s的總距離,因為誤分類點到超平面s的距離為3.3所示,且對於誤分類資料來說總有-yi(wxi+b)>0成立,因此不考慮||w||,就得到感知機損失函式:

l(w,b)=-σyi(wxi+b)

這個損失函式就是感知機學習的經驗風險函式。

感知機的策略就是在假設空間中選取使損失函式式最小的模型引數w,b即感知機模型。

感知機學習演算法是對上述損失函式進行極小化,求得w和b,但是用普通的基於所有樣本的梯度和均值的批量梯度下降法(bgd)是行不通的,原因在於我們的損失函式裡面有限定,只有誤分類的m集合裡面的樣本才能參與損失函式的優化。所以只能採用隨機梯度下降(sgd),目標函式如下:

l(w,b)=arg min(-σyi(w*xi+b))

輸入:訓練資料集t=yi∈

學習率:e (0,1]

輸出:w,b;感知機模型f(x)=sign(wx+b)

1.賦初值w0,b0

2.選取資料點(xi,yi)

3.判斷該資料點是否為當前模型的誤分類點,即yi(wxi+b)<=0則更新

w=w+eyixi

b=b+eyi

4.轉到2,直到訓練集中沒有誤分類點

由於原始的梯度更新公式,經過n次變化,假設初始w,b都為0,其中a=ny

w=σxi∈m eyixi=σaiyixi

b=σxi∈m eyi=σaiyi

輸入:訓練資料集t

學習率e

輸出:a,b;感知機模型f(x)=sign(σajyjxjx+b)

1.賦初值a0,b0

2.選取資料點

3.判斷該資料點是否為當前模型的誤分類點,即判斷若yi(σajyjxjx+b)<=0則更新

ai=ai+e

b=b+eyi

4.轉到2,直到訓練集中沒有誤分類點

在向量維數(特徵數)過高時,計算內積非常耗時,應選擇對偶形式演算法加速。

在向量個數(樣本數)過多時,每次計算累計和就沒有必要,應選擇原始演算法

遺留問題ⅰ:損失函式為何是非負的?沒有誤分類點的損失函式值為何是0?

遺留問題ⅱ:點到超平面的距離是如何得到的?

遺留問題ⅲ:對偶形式的意義:將訓練集中例項間的內積計算出來,存在gram矩陣中,可以大大加快訓練速度。

統計學習方法 第二章 感知機

感知機是二分類的線性分類模型,輸入是例項的特徵x rn,輸出是例項的類別 感知機對應於輸入空間中將例項劃分為正負兩類的分離超平面,屬於判別模型。感知機學習旨在求出將訓練資料進行線性劃分的分離超平面,為此,匯入基於誤分類的損失函式,利用梯度下降法對損失函式進行極小化,求得感知機模型。假設輸入空間 特徵...

統計學習方法(第二章)感知機

1 什麼是感知機 在 機器學習中,感知機 perceptron 是二分類的線性分類模型,屬於監督學習演算法。輸入為例項的特徵向量,輸出為例項的類別 取 1和 1 感知機對應於輸入空間中將例項劃分為兩類的分離超平面。感知機旨在求出該超平面,為求得超平面匯入了基於誤分類的損失函式,利用梯度下降法 對損失...

感知機 《統計學習方法》第二章

模型 線性分類模型 屬於判別模型 策略 演算法 梯度下降法 由輸入空間到輸出空間的函式 f x s ign wx b f x si gn w x b 其中w是權值向量,b是偏置。wx b 0 w x b 0對應特徵空間中的乙個超平面s,w是超平面的法向量,b是超平面的截距。這個超平面將特徵空間劃分為...