機器學習菜鳥筆記01

2021-10-06 02:04:18 字數 3573 閱讀 8297

一般把學習器的實際**值與樣本真實輸出值之間的差異稱為「誤差」,

學習器在訓練集上的誤差稱為「訓練誤差」或者「經驗誤差」 ;

學習器在新樣本上的誤差 稱為泛化誤差

過擬合:如果學習器將訓練樣本學習到誤差接近為0,則會把訓練樣本自身的一些特點當做所有潛在樣本都會具有的一般性質,這樣會導致泛化效能降低。

如果僅有乙個資料集,就要對該資料集進行適當的處理,從而產生適當的訓練集與測試集。

留出法

保持資料集中資料分布的一致性,直接將資料集劃分為兩個互斥的集合,分別作為訓練集s和測試集t。s,t中的樣本類別比例應當近似。

使用留出法一般採用多次隨機劃分,重複進行試驗評估取平均值。

缺點在於:

通常2/3~4/5用於訓練樣本

交叉驗證法
將資料集劃分為k個互斥子集,每個子集盡可能保持資料分布的一致性,然後依次將乙個子集作為測試集,其餘k-1個子集作為訓練集,進行k次試驗後求平均值。通常把交叉驗證法稱為k折交叉驗證。通常也會將資料集使用不同的劃分重複p次。

自助法
資料集d中包含m個樣本,從中隨機挑選乙個樣本,拷貝乙份放入空資料集d1,然後原樣本放回資料集d,重複m次試驗,經過計算得初始資料集d中一共有36.8%的樣本未出現在d1中,一般將d1作為訓練集,將d\d1作為測試集,此時,實際評估的樣本和期望評估的樣本都是m個訓練樣本。自助法評估也稱包外估計

調參與最終模型
大多數學習演算法都有引數需要設定,所以除了對適用學習演算法進行選擇,還要對引數進行設定,即調參

每種引數配置都會訓練出模型,常常選擇的方法是 對每個引數選定乙個範圍和變化步長,實際評估的時候就選擇按照要求選中的幾個點作為引數配置訓練模型。

效能度量就是對學習器的泛化效能進行評估時,衡量模型泛化能力的評價標準。

回歸任務中最常用的效能度量是「均方誤差」

錯誤率和精度
錯誤率:分類錯誤的樣本數佔樣本總數的比例。

精度:分類正確的樣本數佔總樣本數的比例。

查準率,查全率與f1
二分類問題:常將樣本資料根據其真實值和學習器**型別組合劃分為真正例(tp),假正例(fp), 真反例(tn),假反例(fn).滿足tp+fp+tn+fn = 樣本總數,真正例表示真實情況和模型**結果都是正例,假正例表示真正情況為反例,但是**結果為正例,真反例表示真實情況為反例,**結果也是反例,假反例表示真實情況為正例,但是**結果為反例。

查準率:p = tp/(tp+fp) 真正例/(真正例+假正例) **結果為正例中精度為多少

查全率:r = tp/(tp+fn) 真正例/(真正例+假反例) 真實情況為正例有兩種**結果,分別是真正例和假反例,所以查全率表示的是真實情況為正例的情況中真正例的比例

一般來說,查準率和查全率成反比關係,因為要提高查全率,就會把很多不符合的選進來,則查準率降低。

pr影象

若乙個學習器的pr曲線被另乙個包住,則該學習器的效能比包住他的差。若曲線發生了交叉,則一般比較pr曲線下的面積大小。

平衡點(bep):是查準率和查全率相等的取值。此時bep等於查準率和查全率。比較bep大小即可判斷效能優劣。

f1 = 2pr/(p+r) = 2*tp/(樣例總數+tp-tn)

fβ = (1+β2)pr/[(β2*p)+r]

f1是fβ中β等於1時退化的形式,β>0度量的是查全率對查準率的相對重要性。β>1:查全率有更大影響;

β<1:查準率影響更大。

多次二分類混淆矩陣,執行多分類任務(兩兩對應乙個混淆矩陣)

方法1:在各混淆矩陣上分別計算出查準率查準率和查全率,記為(p1,r1),(p2,r2),…,(pn,rn),再算平均值,得到的查準率平均值為巨集查準率(macro-p),得到的查全率平均值為巨集查全率(macro-r),以及相應的巨集f1(macro-f1)

方法2:先將混淆矩陣的對應元素進行平均,得到tp,fp,tn,fn的平均值。再基於這些平均值計算出微查準率(micro-p),微查全率(micro-r),微f1.

roc與auc
roc曲線就是基於考慮學習器在不同任務下的「期望泛化效能」好壞來研究學習器泛化效能的曲線。其全稱為「受試者工作特徵」曲線。根據學習器的**結果對測試樣本進行排序,然後逐個把樣本作為正例進行**,計算出假正例率(fpr),真正例率(tpr),並作為roc曲線的橫軸,縱軸。其中tpr = tp/(tp+fn),fpr = fp/(tn+fp)

aug:表示的是roc曲線下的面積。

排序損失(loss):給定m+ 個正例和m-個反例,d+,d-分別表示正例反例集合。對於每一對正反例:

lrank對應的是roc曲線上方的面積,所以aug = 1- lrank

代價敏感錯誤率與代價曲線
代價矩陣:第i行第j列的costij代表第i類樣本**為第j類樣本的代價。一般costij的絕對值不重要,但是比值重要。

非均等代價指的是賦予每個類別造成的損失代價不同的情況,在非均等代價下,考慮的不是錯誤的次數,而是最小化總體代價

代價曲線的繪製:(橫軸:取值為[0-1]的正例概率代價;縱軸:取值為[0-1]的歸一化代價)

roc曲線上的每一點對應代價平面上的一條線段

設roc上一點座標為(tpr,fpr),則可相應計算出fnr(假反例率 = 1-tpr)

然後在代價平面上繪製一條從(0,fpr)到(1,fnr)的線段,線段下的面積即表示該條件下的期望總體代價。

諸如此類將所有roc曲線上的點轉化到代價平面上去

圍成的面積就是在所有條件下學習器的期望總體代價,所有線段下界形成代價曲線

假設檢驗
這裡的假設是對學習器泛化錯誤率分布的某種判斷或猜想。一般泛化錯誤率與測試錯誤率不相等但是相近,所以可以根據測試錯誤率估推出泛化錯誤率的分布。

泛化錯誤率等於學習器在乙個樣本上犯錯的概率。測試錯誤率可以算出在測試樣本中誤分類的樣本數m,然後可以計算出恰好將測試樣本集中m個樣本誤分類的概率,這也表示在測試樣本集上,泛化錯誤率被測為測試錯誤率的概率。這個概率符合二項分布,當測試錯誤率和泛化錯誤率相等時,概率取最大值。

機器學習筆記 01

本csdn部落格學習筆記對應為機器學習西瓜書教材,一切內容以西瓜書教材為準 新學期的學習依舊,這次發表在csdn部落格上的是西瓜書版機器學習教材的學習心得和筆記的主要內容,可能不是很詳盡,但保證是本人理解與提煉的結果。1.1引言 機器學習 通過計算的手段,利用經驗改善系統的效能 一般流程 資料 學習...

機器學習筆記01 機器學習簡介

機器學習是人工智慧的乙個分支,它業是一類演算法的總稱。這些演算法能夠根據提供的訓練資料按照一定的方式來學習,最終用於 或者分類。更具體的說,機器學習可以看作是尋找乙個函式,輸入是樣本資料,輸出是期望的結果,只是這個函式過於複雜,以至於不太方便形式化表達。需要注意的是,機器學習的目標是使學到的函式很好...

機器學習筆記 01 機器學習基礎知識

1.訓練集與測試集 將資料分成兩部分 一部分用於機器的訓練,即讓機器從這些資料中獲取合適的引數,構建出模型,這些資料稱為訓練集 另一部分用於機器訓練出來的模型進行 根據一些指標來判斷模型的好壞,這些資料稱為測試集 2.分類問題與回歸問題 分類 的結果是離散值 例如明天是否會下雨,腫瘤是良性或者是惡性...