交叉驗證
roc曲線和auc值
生成模型與判別模型
正則化是模型選擇的典型方法,是結構風險最小化策略的實現。
作用是選擇經驗風險與模型複雜度同時較小的模型。
正則化項可以取不同的形式,如l1範數、l2範數。
概念:引數向量中各個元素絕對值之和。
作用:可以實現稀疏(引數稀疏的好處:完成特徵自動選擇、模型更容易解釋)
概念:引數向量中各個元素的平方和然後求平方根。
作用:防止過擬合,提公升模型的泛化能力(讓l2範數的規則項∣∣w
∣∣
2||w||^2
∣∣w∣∣2
盡可能小,可以使得w每個元素都很小,接近於零,但是與l1不同的是,不會等於0;這樣得到的模型抗干擾能力強,引數很小時,即使樣本資料x發生很大的變化,模型**值y的變化也會很有限)
交叉驗證用於模型選擇方法
原因:資料不足
基本思想:重複的使用資料,把給定的數進行切分,將切分資料集組合為訓練集與測試集,在此基礎上反覆進行訓練、測試以及模型選擇。
概念::接收者操作特徵(receiveroperating characteristic),roc曲線上每個點反映著對同一訊號刺激的感受性。
橫軸:負正類率(false postive rate fpr)特異度,劃分例項中所有負例佔所有負例的比例;(1-specificity)
縱軸:真正類率(true postive rate tpr)靈敏度,sensitivity(正類覆蓋率)
注:針對乙個二分類問題,將例項分成正類(postive)或者負類(negative)。但是實際中分類時,會出現四種情況.
若乙個例項是正類並且被**為正類,即為真正類(true postive tp)
若乙個例項是正類,但是被**成為負類,即為假負類(false negative fn)
若乙個例項是負類,但是被**成為正類,即為假正類(false postive fp)
若乙個例項是負類,但是被**成為負類,即為真負類(true negative tn)
當測試集中的正負樣本的分布變換的時候,roc曲線能夠保持不變。在實際的資料集中經常會出現樣本類不平衡,即正負樣本比例差距較大,而且測試資料中的正負樣本也可能隨著時間變化。
概念: roc曲線下的面積,介於0.1和1之間。auc作為數值可以直觀的評價分類器的好壞,值越大越好。
物理意義:任取一對(正、負)樣本,正樣本的score大於負樣本的score的概率。
監督學習是對給定的輸入**相應的輸出。
一般形式為:
監督學習方法分為生成方法和判別方法、
由資料學習聯合概率p(x,y),然後求條件概率分布p(y|x)作為**的模型。即,給定輸入x產生輸出y的生成關係。
常見的生成模型:樸素貝葉斯、隱馬爾可夫模型
特點:生成方法可以還原出聯合概率分布p(x,y),而判別方法則不能。生成方法學習收斂速度快,即當樣本容量增加時,學到的模型可以更快地收斂於真實模型,當存在隱變數時能讓可以用生成方法,此時判別方法則不能用。
由資料直接學習決策函式f(x)或者條件概率分布p(x|y)作為**模型。判別方法關心的是給定的輸入x,應該**什麼樣的輸出。
典型模型:感知機、 決策樹、邏輯斯蒂回歸模型、最大熵模型、支援向量機、提公升方法和條件隨機場。
特點:判別方法直接學習的是條件概率p(x|y)和決策函式f(x)。直接面對**,往往學習的準確率更高,由於直接學習p(x|y)或f(x)。可以對資料進行各種程度上的抽象,定義特徵並使用特徵,因此可以簡化學習問題。
統計學習方法 統計學習基礎(一)
監督學習 統計學習的三要素 模型評估與模型選擇 一 統計學習的特點 以方法為中心 目標是對資料進行 與分析 統計學習的方法 可以總結出統計學習的三要素 模型 策略和演算法。監督學習的任務是學習乙個模型,使模型能夠對任意給定的輸入能做出乙個好的 基本概念 假設空間 模型屬於由輸入空間到輸出空間的對映的...
統計學習方法(一)
首先 李航 統計學習方法課後答案 正則化 min f f 1n i 1nl yi,f xi j f min frac sum n l y i,f x i lambda j f minf f n1 i 1 n l yi f x i j f 其中,第一項是經驗風險 loss 第二項是正則化項 0 lam...
統計學習方法 1 統計學習方法概論
統計學習的主要特點是 1 統計學習以計算機及網路為平台,是建立在計算機及網路之上的 2 統計學習以資料為研究物件,是資料驅動的學科 3 統計學習的目的是對資料進行 與分析 4 統計學習以方法為中心,統計學習方法構建模型並應用模型進行 與分析 5 統計學習是概率論 統計學 資訊理論 計算理論 最優化理...