簡單的描述:根據訓練資料集
d 訓練乙個模型
g,使得這個假設模型
g 和原始資料的模型
f盡可能接近
pla,感知機學習演算法
對於二分類:
資料集:x=
類別:y=
模型的原理:尋找乙個超平面把兩類資料點完全正確分開。
決策超平面:h(
x)=w
tx+b
其中w 叫做權值向量,
b叫做偏置
在課件中,在第一維增加為1的變數,xi
=(1,
xti)
t 這樣決策平面可以寫為:h(
x)=w
tx最終分類函式:g(
x)=s
ign(
h(x)
)如何在假設空間中,找到合適的
對決策錯誤的資料點進行修正的方式,更新權值向量
w如何更新
為什麼這樣更新?
假設根據現在的超平面出現了錯誤的點(x
n,yn
)對於+1 類:
當分類錯誤,說明wt
x 的值小於0,需要增加,而
x 的值是不能改變的,所有需要增加
w的值
+1類時候yn
=+1 ,上面更新
w 可以增加
w所以:wt
t+1x
n≥wt
txn
對於-1類:
分類錯誤,說明wt
x 的值大於0,需要降低,而
x 的值是不能改變的,所有需要降低
w的值
-1類時候yn
=−1 ,上面更新
w 可以降低
w所以:wt
t+1x
n≤wt
txn
寫在一起:yn
wtt+
1xn≥
ynwt
txn
最後對上面右側的兩個圖就很容易看懂了。
感知機學習演算法
其中:t
是迴圈次數 n是第
n 個資料點,這個資料點在當前超平面下被錯誤分類
證明:對於線性可分資料集pla演算法可以收斂
不知道下面怎麼證明了!!!
優點:
1.對線性可能的情況,存在解
2.實現簡單
缺點:
1.線性不可能時候不適應
2.選取不同的初始引數,會得到不同的超平面
修正的pla演算法
機器學習 第一講
在監督學習中,我們給出資料組,並且已經知道正確的輸出是什麼樣,明確輸入和輸出之間的關係。監督學習問題可以歸類為回歸 regression 和分類 classification 問題。在回歸問題上,我們嘗試 乙個連續 continuous 的輸出結果,也就是說我們嘗試去map輸入變數到一些連續的方程。...
機器學習第一講
含義 資料集中的樣本帶有標籤,有明確目標 回歸模型 線性回歸 嶺回歸 lasso和回歸樣條等 分類模型 邏輯回歸 k近鄰 決策樹 支援向量機等 垃圾郵件分類 病理切片分類 客戶流失預警 客戶風險評估 房價 等。資料集中的樣本沒有標籤,沒有明確目標 無監督學習 根據資料本身的分布特點,挖掘反映資料的內...
機器學習十講 第一講
我們將機器學習定義為一組能夠自動檢測模式資料的方法,然後利用未發現的模式來 未來的資料,或者在不確定的情況下執行各種決策 例如計畫如何收集更多的資料 模型和計算能力 深度學習 gpu 分布式系統 廣泛的應用場景 營銷 廣告 金融 交通 醫療等 是指資料採集 資料清洗 資料分析和資料應用的整個流程中的...