統計學習是計算機運用資料及統計方法提高效能的機器學習
herbert a. simon. 如果乙個系統能夠通過執行某個過程改進它的效能,這就是學習。物件是資料:從資料出發,提取資料特徵,抽象資料模型,發現資料知識,回到資料的分析與**中。
前提假設:同類資料具有一定的統計規律性。比如用隨機變數來描述資料特徵,用概率分布來描述資料的統計規律
對資料進行分析和**,效能提公升,同時盡可能的提高學習效率
從給定的,有限的,用於學習的訓練資料(training data)集合出發,假設資料是獨立同分布產生的;並假設要學習的模型屬於某個函式的集合,稱為假設空間(hypothesis space);應用某個評價標準(evaluation criterion),從假設空間中選取乙個最優的模型,使它對已知訓練資料和未知測試資料(test data)在給定的評價標準中有最優的**;最優模型的選取由演算法實現。
輸入變數寫作$x$,輸入變數的取值寫作$x$
$$x=(x1,x2,\ldots,xn)t
$$$x^$表示第$i$個特徵
$x_$表示第$i$個輸入變數
$$x_i=(x_i1,x_i2,\ldots,x_in)t
$$訓練集通常表示為
$$t=
$$監督學習假設輸入隨機變數$x$和輸出變數$y$滿足聯合概率分布$p(x,y)$。對於學習系統來說,聯合分布的具體定義是未知的。
模型屬於由輸入空間到輸出空間的對映的集合,這個集合就是假設空間(hypothesis space)。
監督學習的模型可以是概率模型或非概率模型,由條件概率分布$p(y|x)$或決策函式(decision function)$y=f(x)$表示。
監督學習利用訓練資料集學習乙個模型,再用模型對測試樣本集進行**(prediction)。
通過學習得到的模型,表示為條件概率分布$\hat(y|x)$或決策函式$y=\hat(x)$
在**過程中由
$$\declaremathoperator*
y_=\argmax_} p(y_|x_)
$$
統計學習方法筆記 概述
小知識點 法向量 垂直於平面的直線所表示的向量為該平面的法向量 法向量一般是方程的係數,比如 ax by cz d 0,那麼法向量就是 a,b,c 證明如下 一 範數 l0範數 向量中非0元素的個數 l1範數 向量中各元素的絕對值之和 l2範數 向量中各元素的平方和然後求平方根 二 經驗風險與結構化...
統計學習方法概述
監督學習的任務是學習乙個模型,使模型能夠對任意給定的輸入,對其相應的輸出做出乙個好的 輸入空間和輸出空間是輸入和輸出的所有可能取值的集合,可以是有限個元素,也可以是整個歐式空間。每個輸入由特徵向量表示,所有特徵向量的空間為特徵空間。特徵向量的每一維對應乙個特徵。輸入空間和特徵空間不一定一致。模型輸入...
統計學習方法概述
1 實現統計學習的方法的步驟如下 1 得到乙個有限的訓練資料集合,假設這些資料是獨立同分布的。2 確定包含所有可能的模型的假設空間,即學習模型的集合。3 確定模型選擇的準則,即學習的策略。4 實現求解最優模型的演算法,即學習的演算法。5 通過學習方法選擇最優模型。6 利用學習的最優模型對新資料進行 ...