機器學習面試問題整理 2 SVM支援向量機

2022-08-29 07:57:09 字數 2274 閱讀 1158

概述基本推導和理論還是以看李航老師的《統計學習方法》為主。

各種演算法的原理,推薦理解到可以手撕的程度。

以下為通過網路資源蒐集整理的一些問題及答案,準備的有些倉促,沒能記錄所有資料的**(侵刪)

svm原理及推導

svm與隨機森林比較

隨機森林優點

1、在當前的很多資料集上,相對其他演算法有著很大的優勢,表現良好

2、它能夠處理很高維度(feature很多)的資料,並且不用做特徵選擇

3、在訓練完後,它能夠給出哪些feature比較重要

4、 在建立隨機森林的時候,對generlization error使用的是無偏估計,模型泛化能力強

5、訓練速度快,容易做成並行化方法,訓練時樹與樹之間是相互獨立的

6、 在訓練過程中,能夠檢測到feature間的互相影響

7、 實現比較簡單

8、 對於不平衡的資料集來說,它可以平衡誤差。

1)每棵樹都選擇部分樣本及部分特徵,一定程度避免過擬合;

2)每棵樹隨機選擇樣本並隨機選擇特徵,使得具有很好的抗噪能力,效能穩定;

對缺失值不敏感,如果有很大一部分的特徵遺失,仍可以維持準確度

隨機森林有out of bag,不需要單獨換分交叉驗證集

。隨機森林缺點:

1) 引數較複雜;

2) 模型訓練和**都比較慢。

svm的優點:

• 能夠處理大型特徵空間

• 能夠處理非線性特徵之間的相互作用

• 無需依賴整個資料

svm的缺點:

• 當觀測樣本很多時,效率並不是很高

• 有時候很難找到乙個合適的核函式

為此,我試著編寫乙個簡單的工作流,決定應該何時選擇這三種演算法,流程如下:

• 首當其衝應該選擇的就是邏輯回歸,如果它的效果不怎麼樣,那麼可以將它的結果作為基準來參考;

• 然後試試決策樹(隨機森林)是否可以大幅度提公升模型效能。即使你並沒有把它當做最終模型,你也可以使用隨機森林來移除雜訊變數;

• 如果特徵的數量和觀測樣本特別多,那麼當資源和時間充足時,使用svm不失為一種選擇。

svm為什麼要引入拉格朗日的優化方法。

化為對偶問題

對於svm而言,原問題minwθp(w)=minwmaxα,β,αi≥0l(w,α,β)minwθp(w)=minwmaxα,β,αi≥0l(w,α,β)

不易求解,但由於原問題為二次規劃問題,滿足「strong duality」關係,故可解其對偶問題

svm原問題和對偶問題關係?

svm從原始問題變為對偶問題來求解 的原因

1. 對偶問題將原始問題中的約束轉為了對偶問題中的等式約束

2. 方便核函式的引入

3. 改變了問題的複雜度。由求特徵向量w轉化為求比例係數a,在原始問題下,求解的複雜度與樣本的維度有關,即w的維度。在對偶問題下,只與樣本數量有關。

svm在哪個地方引入的核函式, 如果用高斯核可以公升到多少維?

線性不可分時可以引入核函式

「如果對映後空間是k維的話,那內積矩陣的秩最大是k。而任給n個互不重合的樣本,

gaussian kernel的內積矩陣都是滿秩的。所以你無論假設k是多少,都能找到n>k,矛

盾,所以必須是無限維的。 」

svm怎麼防止過擬合 ?

如果支援向量中碰巧存在異常點,那麼我們傻傻地讓svm去擬合這樣的資料,最後的超平面就不是最優。

解決過擬合的辦法是為svm引入了鬆弛變數ξ(slack variable)。

因此svm公示中的目標函式也需要相應修改,我們加上鬆弛變數的平方和,並求最小值。這樣就達到乙個平衡:既希望鬆弛變數存在以解決異常點問題,又不希望鬆弛變數太大導致分類解決太差。

svm的目標函式。

[to-do]

常用的核函式。

(1) 線性核函式

(2) 多項式核

(3) 徑向基核(rbf)gauss徑向基函式則是區域性性強的核函式,其外推能力隨著引數的增大而減弱。多項式形式的核函式具有良好的全域性性質。區域性性較差。

(4) 傅利葉核

(5) 樣條核

(6) sigmoid核函式

核函式的選取標準:

• 如果如果特徵數遠遠大於樣本數的情況下,使用線性核就可以了.

• 如果特徵數和樣本數都很大,例如文件分類,一般使用線性核, liblinear比libsvm速度要快很多.

• 如果特徵數遠小於樣本數,這種情況一般使用rbf.但是如果一定要用線性核,則選擇liblinear較好,而且使用-s 2選項。

svm硬軟間隔對偶的推導

[to-do]

機器學習面試問題2

logistic 邏輯回歸 是一種廣義線性回歸分析模型,是一種分類演算法。通過函式l將w x b對應乙個隱狀態p,p l w x b 然後根據p 與1 p的大小決定因變數的值。l是logistic函式.該模型是典型的數學模型,它服從邏輯斯蒂分布。二項邏輯斯蒂回歸模型是如下的條件概率分布 在這裡,x是...

機器學習崗位面試問題彙總 之 SVM

自己結合網路 書本內容總結,歡迎指正歡迎補充。更新日期 20170607 版本1 1.簡述svm 二分類模型 更嚴格優化條件 更好分界線,低維 高維,間隔最大的分割平面,不太容易過擬合 2個原因 多層感知機 sigmoid核 3種分類,2種求解方法 2.svm的主要特點 1 非線性對映 理論基礎 2...

機器學習面試問題1

監督 輸入的資料有明確的標識,可建立模型做 多用於分類和回歸。非監督 資料並不被特別標識,需要建立模型得出資料的內在結構,多用於聚類。l1範數 l1 norm 是指向量中各個元素絕對值之和,也有個美稱叫 稀疏規則運算元 lasso regularization 比如 向量a 1,1,3 那麼a的l1...