統計學習方法學習筆記(第七章 支援向量機)

2021-08-29 16:22:42 字數 1079 閱讀 2620

支援向量機是一種二類分類模型,它的基本模型是定義在特徵空間上的間隔最大的線性分類器,間隔最大使它有別於感知機;支援向量機還包括核技巧,這使它稱為實質上的非線性分類器。支援向量機的學習策略就是間隔最大化。可以形式化為乙個求解凸二次優化的問題,也等價於正則化的合頁損失函式的最小化問題。支援向量機的學習演算法是求解凸二次規劃的最優化問題。

線性可分支援向量機,線性支援向量機假設兩個空間的元素一一對應,並將輸入空間中的輸入對映為特徵空間中的特徵向量。非線性支援向量機利用乙個從輸入空間到特徵空間的非線性對映將輸入對映為特徵向量。所以,輸入都由輸入空間轉換到特徵空間,支援向量機的學習是在特徵空間進行的。

感知機利用誤分類最小的策略,求得分離超平面,不過這時的解有無窮多個。線性可分支援向量機利用間隔最大化求最優分類平面,這時,解是唯一的。

函式間隔 yi*(wxi + b)

超平面關於樣本點的幾何間隔一般是例項點到超平面的帶符號的距離,當樣本點被超平面正確分類時就是例項點到超平面的距離。

支援向量機學習的基本想法是求解能夠正確劃分訓練資料集並且幾何間隔最大的分離超平面。對線性可分的訓練資料而言,線性可分分離超平面有無窮多個。但是幾何間隔最大的分離超平面是唯一的。這裡的間隔最大化又稱為硬間隔最大化。

間隔最大化的直觀解釋是:對訓練資料集找到幾何間隔最大的超平面意味著以充分大的確信度對訓練資料進行分類。也就是說,不僅將正負例項點分開。而且對最難分的例項點也有足夠大的確信度將它們分開。這樣的超平面應該對未知的新例項有很好的分類**能力。

支援向量的個數一般很少,所以支援向量機由很少的「重要的」訓練樣本確定。

線性可分問題的支援向量機學習方法,對線性不可分訓練資料是不適用的,因為這時上述方法中的不等式約束並不能都成立。這就需要修改硬間隔最大化,使其稱為軟間隔最大化。

合頁損失函式(hinge loss function)

合頁損失函式對學習有更高的要求。

用線性分類方法求解非線性分類問題分為兩步:首先適用乙個變換將原空間的資料對映到新空間;然後在新空間裡用線性分類學習方法從訓練資料中學習分類模型。核技巧就屬於這種方法。

如何高效的實現支援向量機學習稱為乙個重要的問題,目前人們已經提出許多快速實現演算法。

比如序列最小最優化(smo演算法。未完待續。。。。)

統計學習方法 第七章 支援向量機

第七章 支援向量機 2.線性支援向量機與軟間隔最大化 支援向量機 svm 是一種二分類模型,支援向量機的學習策略是 間隔最大化。訓練資料線性可分 通過硬間隔最大化,學習線性分類器,即線性可分支援向量機,又稱為硬間隔支援向量機。訓練資料近似線性可分,通過軟間隔最大化,學習乙個線性分類器,即線性支援向量...

《統計學習方法》讀書筆記 第七章 支援向量機

本系列部落格是自己對於 統計學習方法 這本書的讀書筆記,在讀過每個章節以後根據自己的理解寫下這一章的知識框架以及補充一些延伸知識點。目錄 寫在前面 本章框架 線性可分svm與硬間隔最大化 線性svm與軟間隔最大化 非線性svm與核函式 序列最小最優化演算法 smo 補充知識點 歐氏空間與希爾伯特空間...

《統計學習方法》學習筆記

最近把李航的 統計學習方法 看完了,感覺很不錯,從概論到各個統計方法,由易到難層層推進,每個方法都有詳盡的數學公式推倒,感覺很適合有一定數學功底的人作為機器學習入門來看。可惜本人自幼愚鈍,資質欠佳,以前學的概率論與數理統計的知識都忘得差不多了,看得雲裡霧裡的,前面還好,越到後面越看不明白,遇到不懂的...