林軒田機器學習技法課程筆記六 支援向量回歸

2021-09-22 16:25:23 字數 1468 閱讀 8771

有regularization的regression: ridge regression

linear vs kernel: trade-off between efficiency and flexibility

tube regression: epsilon-insensitive error

tube regression比squared regression長得慢=> less affected by outliers

為什麼要分開upper tube violation和lower tube violation?如果不分開,推導出來之後,寫出dual會稍微難寫一點。

parameter c: trade-off of regularization & tube violation

parameter epsilon: vertical tube width—one more parameter to choose!(與svm不同)

svr困難的一點在於引數的選擇

管子的寬度不是太好調,epsilon並不好控制,是tube regression沒人用的乙個原因。

tube regression把epsilon設成0,把它作為absolute error的optimizer。

err(hat)只是用來做formulation/optimization,不會用來衡量model的好壞。

對於min wtw找不到直覺的解釋(physical sense),最信服的解釋是:他就是l2-regularization。

tube是為了創造sparsity,但是為什麼要max tube的寬度。二十年過去了,沒有找到這個問題的答案。

kernel還有另一種解釋:函式空間裡面的內積而不是向量空間裡面的內積

linear的世界裡,soft margin svm和logistic regression都可以,只是習慣的差別

l2 loss hinge error的平方版本,穩定度稍微差一點

gausian distribution l2-distance

laplacian distribution l1-distance,相減取絕對值

證明laplacian kernel滿足mercer』s condition,林軒田在**中證明了,有考慮過出成作業。

在特別的問題裡,比如counting data(x的每乙個維度是正整數,比如histogram), laplacian kernel比gausian kernel 好用。

當年,萬惡的deep learning還沒有出來,也會用counting data去解決一些影象的問題。

但是大多數的counting data不應該是rotation invariant,所以也不算完全解決,那有沒有比laplacian kernel更好的kernel呢?

kernel描述的是乙個框架,你有這麼多的工具可以用。

deep learning是乙個框架,在框架裡面哪個structure(cnn/rnn)好用,是research的問題。

機器學習技法 林軒田 課程總結

how can machines learn by embedding numerous features 1.線性svm,推導非條件目標,qp求解 2.對偶svm,非線性問題消除z域d 1依賴 3.kernel trick僅在x域計算 4.soft margin,n 5.klr,two level...

林軒田《機器學習基石》筆記一

整個基石課程分成四個部分 機器學習可以被定義為 improving some performance measure with experence computed from data.也就是機器從資料中總結經驗,從資料中找出某種規律或者模型,並用它來解決實際問題。應用場合大致可歸納為三個條件 對於...

機器學習筆記 六 支援向量機

對於給定的訓練集d yi 分類學習的初衷就是基於訓練集在樣本空間中找到乙個可以有效劃分樣本的超平面。可能存在很多可將樣本分開的超平面,選擇分類結果最魯棒 泛化能力最強的超平面便是支援向量機模型的重點。通過二維樣本點分布的圖示看,最直觀上,找到兩類樣本正中間的超平面是最佳的。如此,在樣本空間中,劃分超...