資料分析05 SVM

2021-09-29 16:54:51 字數 810 閱讀 7394

標籤(空格分隔): 資料分析

svm 是有監督的學習模型,我們需要事先對資料打上分類標籤,通過求解最大分類間隔來求解二分類問題。如果要求解多分類問題,可以將多個二分類器組合起來形成乙個多分類器。

如何建立乙個 svm 分類器呢?我們首先使用 svc 的建構函式:model = svm.svc(kernel=『rbf』, c=1.0, gamma=『auto』),這裡有三個重要的引數 kernel、c 和 gamma。kernel 代表核函式的選擇,它有四種選擇,只不過預設是 rbf,即高斯核函式。

linear:線性核函式

poly:多項式核函式

rbf:高斯核函式(預設)

sigmoid:sigmoid 核函式

線性核函式,是在資料線性可分的情況下使用的,運算速度快,效果好。不足在於它不能處理線性不可分的資料。

多項式核函式可以將資料從低維空間對映到高維空間,但引數比較多,計算量大。

高斯核函式同樣可以將樣本對映到高維空間,但相比於多項式核函式來說所需的引數比較少,通常效能不錯,所以是預設使用的核函式。

了解深度學習的同學應該知道 sigmoid 經常用在神經網路的對映中。因此當選用 sigmoid 核函式時,svm 實現的是多層神經網路。

引數 c 代表目標函式的懲罰係數,懲罰係數指的是分錯樣本時的懲罰程度,預設情況下為 1.0。當 c 越大的時候,分類器的準確性越高,但同樣容錯率會越低,泛化能力會變差。相反,c 越小,泛化能力越強,但是準確性會降低。

引數 gamma 代表核函式的係數,預設為樣本特徵數的倒數,即 gamma = 1 / n_features。

機器學習 05 SVM

學習內容 演算法簡介 支援向量機 support vector machines,svm 是一種二類分類模型,它的基本模型是定義在特徵空間上的間隔最大的線性分類汽車,間隔最大使它有別於感知機。支援向量機還包括核技巧,這使它成為實質上的非線性分類器,支援向量機的學習策略就是間隔最大化,可形成化為乙個求...

05 資料分析 診斷性分析方法

診斷性分析 根據業務邏輯,通過資料尋找引起最終結果的原因和可以改變未來結果的方法 解決問題 壞的結果 產生問題的原因和解決的方案 發現機會 好的結果 在機會出現的時候發現機會 list item確定問題的描述指標,以及指標的統計邏輯 確定指標的類別,是基礎指標還是復合指標 對復合指標進行分解,分解到...

資料分析 numpy陣列 05索引

資料分析 numpy陣列 05 numpy陣列操作 1 索引 1 呼叫slice函式,指定start,stop,step 2 通過 指定start,stop,step 3 通過 來使選擇元組的長度與陣列的維度相同的ndarra,行,列 4 通過整數陣列索引指定位置的元素 5 通過 和 索引 6 布林...