過擬合(over-fitting):是指學習時選擇的模型所包含的引數過多,以致於這一模型對已知資料**較好,對未知資料**很差的現象。可以說模型選擇旨在避免過擬合,並提高模型的**能力。
泛化能力(generalization ability):是指學習到的模型對未知資料的**能力,是學習方法的重要性質。現實生活中常常採用測試誤差來評價學習方法的泛化能力。
在模型選擇的典型方法是正則化和交叉驗證。
交叉驗證(cross validation):把給定的資料集進行切分,將切分的資料集組合為訓練集和測試集,用訓練集來訓練模型,用測試集對模型進行評估。
(1)簡單交叉驗證:首先簡單的將資料集分為兩部分,一部分作為訓練集,另一分部作為測試集(70%是訓練集,30%是測試集),然後用訓練集在各種條件下訓練模型,從而得到不同的模型;在測試集上評價各個模型的測試誤差,選出測試誤差最小的模型;
(2)s折交叉驗證:隨機地將資料集切分為s個互不相交的大小相同的子集,然後利用s-1個子集訓練模型,利用餘下的子集測試模型;將這一過程對可能的s中選擇重複進行,最後評選出s次平均測試誤差最小的模型。
統計學習 基本概念篇
基於資料構建概率統計模型並運用模型對資料進行分析與 統計學需一般經過以下步驟 1 得到乙個有限的訓練資料集合 2 確定包含所有可能的模型的假設空間,即學習模型的集合 3 確定模型選擇的準則,即學習的策略 4 實現求解最有模型的演算法,即學習的演算法 5 通過學習方法選擇最優模型 6 利用學習的最優模...
學習統計學(一) 基本概念
首先我們需要了解的概念是均值 中位數和眾數。這三者都屬於表示頻數分配位置的量值。所謂頻數分配位置是指兩個或者兩個以上頻數分配各變數集中的中心點的不同。1 平均數 mean 計算平均數的方式有很多種,在這裡我們所指的是算數平均數。它的計算方法是計算一組資料的和sum,然後用sum除以這組資料的數量,得...
統計學的基本概念
從高的角度來看,統計學是一種利用數學理論來進行資料分析的技術。象柱狀圖這種基本的視覺化形式,會給你更加全面的資訊。但是,通過統計學我們可以以更富有資訊驅動力和針對性的方式對資料進行操作。所涉及的數學理論幫助我們形成資料的具體結論,而不僅僅是猜測。利用統計學,我們可以更深入 更細緻地觀察資料是如何進行...