當損失函式給定時,基於損失函式的模型的訓練誤差和模型的測試誤差就成為了學習方法評估的標準。測試誤誤差反映了學習方法對未知的測試資料集的**能力,又被稱為泛化能力。
過擬合:一味的追求提高訓練資料的**能力,所選模型的複雜度則往往會比真模型更高,但會造成過擬合。為了防止過擬合,進行選出最優的模型,以便於選出誤差最小的模型,使用正則化和交叉驗證。是結構風險最小化策略的實現。一般是模型複雜度的單調遞增函式,模型越複雜,正則化項就越大。
有l1正規化和l2正規化
! l1和l2對比
如果給定的樣本資料充足,進行模型的選擇的一種簡單方法是隨機地將資料集切分為三部分,分為訓練集、驗證集和測試集。
1.簡單交叉驗證
首先隨機地給資料分成訓練集和測試集,然後用訓練集在各種引數下進行訓練模型,從而得到不同的模型,在測試集上評價各個模型的測試誤差,選出測試誤差最小的模型。
2.s折交叉驗證
首先隨機地將已給的資料切分為s個互不相交、大小相同的子集;然後用s-1個子集的資料訓練模型,利用餘下的子集測試模型;將這一過程對可能的s種選擇重讀進行,最後選出s次評測中平均測試誤差最小的模型。
是指該方法學習得到的模型對未知資料的**能力,是學習方法本質上重要的性質,現實中採用最多的方法是通過測試誤差來評價學習方法的泛化能力。
泛化誤差上界:它是樣本容量的函式,當樣本容量增加時,泛化上界趨於0;它是假設空間容量的函式,假設空間容量大,模型就越難學,泛化誤差就越大。
1.判別模型由資料直接學習決策函式或條件概率分布作為**的模型,稱為判別模型。主要關心給定輸入x,應該**什麼樣的輸出y,典型例子有:k近鄰、感知機、決策樹、邏輯斯蒂回歸、最大熵模型、支援向量機、提公升方法和條件隨機場等。
2.生成模型:由資料學習聯合概率分布,然後求出條件概率分布p(x|y)作為**的模型。因為模型表示了給定x產生輸出y的生成關係,典型的有樸素貝葉斯、隱馬爾可夫模型
精確率、召回率、覆蓋率
tp-將正類**為正類數
fn-將正類**為負類數
fp-將負類**為正類數
tn-將負類**為負類數
精確率:tp/(tp+fp)
召回率:tp/(tp+fn)
精確率和召回率的調和均值:2tp/(2tp+fp+fn)
標註問題在資訊提取、自然語言處理等領域被廣泛應用,是這些領域的基本問題。例如,在自然語言處理中的詞性標註就是乙個典型的標註問題,給定乙個由單詞組成的句子,對這個句子中的每乙個單詞進行詞性標註,即對乙個單詞序列**其對應的詞性標記序列。
常見的有:隱馬爾可夫模型、條件隨機場
回歸模型正是表示從輸入變數到輸出變數之間對映的函式。回歸學習常見的損失函式是平方損失函式,在此情況下,回歸問題可以由著名的最小二乘法求解。
統計學習方法 1 統計學習方法概論
統計學習的主要特點是 1 統計學習以計算機及網路為平台,是建立在計算機及網路之上的 2 統計學習以資料為研究物件,是資料驅動的學科 3 統計學習的目的是對資料進行 與分析 4 統計學習以方法為中心,統計學習方法構建模型並應用模型進行 與分析 5 統計學習是概率論 統計學 資訊理論 計算理論 最優化理...
統計學習方法
這兩天翻了一下這本書,做個筆記,方便下次細看。本書主要講解統計學習中用到的監督學習。介紹了一些模型機器演算法。當參考書不錯,不怎麼適合死磕。第一章 主要介紹機器學習,統計學習的基本步驟,以及常用的表示方法。寫的比較系統,對於這個比較不熟悉的,可以好好看看。因為常用的模型就是這樣表示的,懂了這個看公式...
統計學習方法
第一章 方法概述 統計學習方法三要素 模型,策略,演算法 監督學習的重要問題 分類問題 classification 應用 銀行構建客戶分類模型,網路安全利用日誌資料對入侵檢測,影象處理檢測影象中是否有人臉,手寫識別識別分類手寫數字,網際網路搜尋網頁分類 二類分類評價指標 精確度,召回率,f1值 標...