1.統計學習和機器學習:
統計學習就是計算機系統利用資料和統計方法提高系統效能的機器學習,如今的機器學習一般指的就是統計學習。所謂的系統效能一般指對資料的分析和**能力。
2.輸入空間,輸出空間,特徵空間
將輸入和輸出所有可能的取值稱之為輸入空間和輸出空間;
每個輸入例項通常由乙個特徵向量進行表示,這樣所有的特徵向量構成了特徵空間。有的時候輸入空間和特徵空間是相同的,有的時候是不同(比如:輸入是一張例項,在識別分類中,我們需要對進行特徵提取)
3.統計學習三要素
模型:就是我們需要學習的條件概率分布或者決策函式。模型的假設空間(hypothesis space)包含所有可能的條件概率分布或決策函式。比如,假若決策函式是輸入變數的線性函式,那麼模型的假設空間就是所有線性函式構成的集合。
順便提一下,由決策函式表示的模型稱之非概率模型;由條件概率表示的模型稱之概率模型。
策略:就是如何從假設空間中選擇最優的模型。這就涉及到選擇的好壞問題,如何度量這種好壞就得引入損失函式(l(
y,f(
x)) )和風險函式(re
xp(f
)=ep
[l(y
,f(x
))] )。
損失函式度量模型一次**的好壞,對於非概率模型的損失函式一般有0-1損失函式,平方損失函式和絕對損失函式,對於概率模型的損失函式有對數損失函式。具體定義如下:
風險函式度量平均意義下模型的**好壞:
但是風險函式的求解需要獲得x,
y 的聯合概率p(
x,y)
。實際上,我們如果知道p(
x,y)
就可以直接獲得輸出的條件概率p(
y|x)
了,這就是乙個雞生蛋,蛋生雞的問題。換個角度再想想,我們可以通過計算給定樣本的平均損失(即經驗風險)來估計期望風險:
原因是:根據大數定律,當樣本容量n趨於無窮時,經驗風險趨於實際的期望風險。但是一般而言我們的樣本是有限的,所以單純的通過經驗風險估計期望風險所得到模型的泛化能力一般都是不足的。
針對經驗風險最小化(empirical risk minimization,erm)泛化能力不足的問題,我們可以在代價函式中新增正則項,即結構風險最小化(structural risk minimization,srm).
演算法:是指學習模型的具體計算方法。統計學習基於訓練資料集,根據學習策略從假設空間中選擇最優模型,最後需要考慮的就是用什麼樣的方法求解最優模型,這個時候就是在已知代價函式的基礎下求解模型引數。
4.正則化:在原本的經驗風險代價函式的後面新增乙個用於描述模型複雜度的專案,該專案被稱作正則化項,正則化符合奧卡姆剃刀原理。所謂奧卡姆剃刀原理應用於模型選擇時就是:在所有可能的選擇的模型中,能夠很好的解釋已知的資料並且十分簡單才是最好的模型。一般用於描述模型複雜度的有l0,l1和l2範數。
l0範數是指向量中非0的元素的個數。如果我們用l0範數來規則化乙個引數矩陣w的話,就是希望w的大部分元素都是0。這太直觀了,太露骨了吧,換句話說,讓引數w是稀疏的。
l1範數是指向量中各個元素絕對值之和,也有個美稱叫「稀疏規則運算元」(lasso regularization)。l0範數很難優化求解(np難問題),而l1範數是l0範數的最優凸近似,而且它比l0範數要容易優化求解,l0和l1都是用來進行特徵選擇的。
l2範數是指向量各元素的平方和然後求平方根。我們讓l2範數的規則項||
w||2
最小,可以使得w的每個元素都很小,都接近於0,但與l1範數不同,它不會讓它等於0,而是接近於0,l2範數可以提高模型的泛化能力,同時l2範數方便優化求解,獲取的特徵相比於l1和l0更加平滑。
5.交叉驗證(cross validation)
首先涉及三類資料:訓練集(training set),驗證集(validation set)以及測試集(test set)。訓練集用來模型的訓練,驗證集用於模型的選擇,測試集用於最終對學習方法的評估。
1.簡單交叉驗證:將資料的70%作為訓練集,30%作為測試集。然後用訓練集在各種條件下訓練模型,從而得到不同的模型,在測試集上評價各個模型的測試誤差,選出測試誤差最小的模型。
2.s折交叉驗證:將資料隨機地切分為s個互不相交的大小相同的子集;然後利用s-1個子集的資料訓練模型,利用餘下的子集測試模型;將這乙個過程對可能的s種選擇重複進行,最後選擇s次評測中平均測試誤差最小的模型;
3.留一交叉驗證:往往在資料缺乏的情況下使用,假設存在n個資料,一般將s=np(
x,y)
,然後求出條件概率分布p(
y|x)
作為**的模型,即生成模型:p(
y|x)
=p(x
,y)p
(x) ,這種方法之所以稱為生成方法是因為模型表示了給定輸入x產生輸出y的生成關係,典型的生成模型有樸素貝葉斯和隱馬爾科夫模型。
判別模型則是由資料直接學習決策函式f(
x)或者條件概率分布p(
y|x)
作為**的模型,典型的判別模型比如:knn,感知機,決策樹,lr,最大熵模型,svm,提公升方法(比如:adaboost,bagging,隨機森林)和條件隨機場。
7.準確率(precision),召回率(recall)和f1
tp(真陽):將正類**為正類
fp(假陽):將負類**為正類
tn(真陰):將負類**為負類
fn(假陰): 將正類**為負類 p(
準確率)
=tpt
p+fp
r(召回率)=
tptp
+fn
2f1=
1p+1
r ,準確率和召回率都高時,f1
值也會高。 tp
從圖中可以看出,roc曲線一般在(0,0)和(1,1)直線的上方。(因為對於二分類問題而言,這條直線就代表隨機猜測,0.5的概率**正確)
在roc 空間中,每個點的橫座標是fpr,縱座標是tpr,這也就描繪了分類器在tp(真正的正例)和fp(錯誤的正例)間的trade-off。area under roc curve(auc)就出現了。顧名思義,auc的值就是處於roc curve下方的那部分面積的大小。通常,auc的值介於0.5到1.0之間,較大的auc代表了較好的performance。
8.監督學習的三類問題:
1.分類問題:當輸出變數y取有限個離散值時,**問題便成為分類問題
2.標註問題:是分類問題的乙個推廣,標註問題又是更複雜的結構**。標註問題的目標在於學習乙個模型,使它能夠對觀測序列給出標記序列作為**。(可能的標記個數是有限的,但其組合所成的標記序列的個數是依序列長度呈指數級別增長的),標註常用的統計學習方法有:隱馬爾科夫模型和條件隨機場。
3.回歸問題:用於**輸入變數和輸出變數之間的關係,回歸問題的學習等價於函式擬合,選擇一條函式曲線使其可以很好地擬合已知資料且很好地**未知資料。
統計學習的基本概念
過擬合 over fitting 是指學習時選擇的模型所包含的引數過多,以致於這一模型對已知資料 較好,對未知資料 很差的現象。可以說模型選擇旨在避免過擬合,並提高模型的 能力。泛化能力 generalization ability 是指學習到的模型對未知資料的 能力,是學習方法的重要性質。現實生活...
統計學習 基本概念篇
基於資料構建概率統計模型並運用模型對資料進行分析與 統計學需一般經過以下步驟 1 得到乙個有限的訓練資料集合 2 確定包含所有可能的模型的假設空間,即學習模型的集合 3 確定模型選擇的準則,即學習的策略 4 實現求解最有模型的演算法,即學習的演算法 5 通過學習方法選擇最優模型 6 利用學習的最優模...
學習統計學(一) 基本概念
首先我們需要了解的概念是均值 中位數和眾數。這三者都屬於表示頻數分配位置的量值。所謂頻數分配位置是指兩個或者兩個以上頻數分配各變數集中的中心點的不同。1 平均數 mean 計算平均數的方式有很多種,在這裡我們所指的是算數平均數。它的計算方法是計算一組資料的和sum,然後用sum除以這組資料的數量,得...