支援向量機方法是建立在統計學習理論的vc 維理論和結構風險最小原理基礎上。
置信風險: 分類器對 未知樣本進行分類,得到的誤差。
經驗風險: 訓練好的分類器,對訓練樣本重新分類得到的誤差。即樣本誤差
結構風險:置信風險 + 經驗風險
結構風險最小化就是為了防止過擬合而提出來的策略,貝葉斯估計中最大後驗概率估計就是結構風險最小化的乙個例子。當模型的條件概率分布、損失函式是對數損失函式、模型複雜度由模型先驗概率表示時,結構風險最小化等價於最大後驗概率估計。監督學習問題變成經驗風險或結構風險函式的最優化問題,這時經驗風險或結構風險函式是最優化的目標函式。
svm在小樣本訓練集上能夠得到比其它演算法好很多的結果。支援向量機之所以成為目前最常用,效果最好的分類器之一,在於其優秀的泛化能力,這是是因為其本身的優化目標是結構化風險最小,而不是經驗風險最小,因此,通過margin的概念,得到對資料分布的結構化描述,因此減低了對資料規模和資料分布的要求。svm也並不是在任何場景都比其他演算法好,對於每種應用,最好嘗試多種演算法,然後評估結果。如svm在郵件分類上,還不如邏輯回歸、knn、bayes的效果好。
統計學 統計學基礎
五種抽樣方法 1 簡單隨機 選取熱量相同且每個樣本有同等概率被選擇的樣本 2 系統 簡單的系統抽取樣本 3 任意 使用乙個碰巧很容易被選擇的樣本 4 整群 先將總體分為不同組群,從中隨機挑選幾個組群作為樣本 5 分層 定義層級,在每個層級隨機抽取樣本。抽樣方法的選擇一定要符合 1 只有樣本對總體具有...
統計學 置信區間
假設我們想直到1000個人的平均身高。但是對1000人分別進行身高測量太麻煩。所以我們選擇100人樣本進行估計。估計可以是點估計 估計確切身高數 也可以是區間估計 估計確切身高的範圍 區間估計更為科學,所以這裡我們選擇區間估計。要估計就要考慮估計的準確度,我們實現確定95 的估計準確度。95 準確度...
統計學基礎 三
分類資料 眾數 出現最多的變數值,峰值 順序資料 中位數 位置在中間的變數值 位置 分位數 上四分位位置 假設目前有9個資料,則下四分位 9 4 2.25,資料位於第二位和第三位資料的25 的位置。假設目前有9個資料,則上四分位 3 9 4 6.75,資料位於第六位和第七位資料的75 位置。數值型資...