首先簡單介紹一下統計學習:
統計學習是關於計算機基於資料構建概率統計模型並運用模型對資料進行**和分析的一門學科。其可以理解為計算機系統通過運用資料及統計方法提高系統效能的機器學習。現在我們談論的機器學習,往往就是統計機器學習。
下面進入正文
概率模型和非概率模型的本質區別就是其內在結構是否可以表示成聯合概率分布的形式。如馬爾科夫鏈為概率模型,神經網路為非概率模型。
其判別的依據y(x)是否是線性函式。線性模型可以是用曲線擬合樣本,但是分類的決策邊界一定是直線的,例如logistics模型區分是否為線性模型,主要是看乙個乘法式子中自變數x前的係數w,如果w只影響乙個x,那麼此模型為線性模型。或者判斷決策邊界是否是線性的。
依據模型訓練所得引數維度是否固定,固定為引數化(如k-means),不固定為非引數化(如svm)。一般來說,比較簡單的問題為引數化,困難的為非引數化。
貝葉斯和核方法。
此處要區分貝葉斯方法和極大似然估計。極大似然估計為頻率學派貝葉斯方法為貝葉斯學派。頻率學派認為引數固定,於是用已知資料去似然。貝葉斯學派認為引數也服從概率分布,且要根據先驗知識。
例如:一種癌症,得了這個癌症的人被檢測出為陽性的機率為90%,未得這種癌症的人被檢測出陰性的機率為90%,而人群中得這種癌症的機率為1%,乙個人被檢測出陽性,問這個人得癌症的機率為多少?
假設 a 表示事件 「測出陽性」, b1 表示「得癌症」,b2 表示「未得癌症」,那麼:
再來看一下聯合概率:人群中檢測為陽性並且得癌症的機率:
檢測為陽性但未得癌症的概率:
下面開始貝葉斯的功力所在了:「怎樣求出在檢測出陽性的前提下得癌症的概率呢?」根據上面的結果,
這個問題中:人群中患癌症與否的概率是先驗概率,先驗概率是已知的,根據觀測值:是否為陽性,來判斷得癌症的後驗概率。(此處示例引用鏈結
統計學習方法 統計學習基礎(一)
監督學習 統計學習的三要素 模型評估與模型選擇 一 統計學習的特點 以方法為中心 目標是對資料進行 與分析 統計學習的方法 可以總結出統計學習的三要素 模型 策略和演算法。監督學習的任務是學習乙個模型,使模型能夠對任意給定的輸入能做出乙個好的 基本概念 假設空間 模型屬於由輸入空間到輸出空間的對映的...
統計學習方法 1 統計學習方法概論
統計學習的主要特點是 1 統計學習以計算機及網路為平台,是建立在計算機及網路之上的 2 統計學習以資料為研究物件,是資料驅動的學科 3 統計學習的目的是對資料進行 與分析 4 統計學習以方法為中心,統計學習方法構建模型並應用模型進行 與分析 5 統計學習是概率論 統計學 資訊理論 計算理論 最優化理...
感知機演算法 統計學習方法
from sklearn.linear model import perceptron import numpy as np 訓練的資料集 x train 3,3 4 3 1,1 y np.array 1 1,1 構建物件 perceptron perceptron 引數 penalty 正則化項 ...