統計學習方法第一章概論

2021-10-06 13:01:18 字數 1862 閱讀 4759

# 統計學習分類

"""監督學習:是指從標註資料中學習**模型的機器學習問題,標註資料表示輸入和輸出的對應關係,**模型對給定的輸入產生相應的輸出。監督學習的本質就是學習輸入到輸出的對映規律。

輸入空間;輸入的向量。例如x

特徵空間:輸入空間到特徵空間的對映,如x^2,x^3等

輸出變數為連續變數的為回歸問題,輸出變數為有限個離散的成為分類問題,輸入變數與輸出變數均為變數序列的問題成為標註問題

假設空間:監督學習的目的是在於學習乙個輸入到輸出的對映,這一對映由模型來表示,模型屬於輸入空間到輸出空間的對映集合,這個集合就是假設空間。假設空間的確定就意味著學習範圍的確定

貝葉斯學習:計算在給定資料條件下模型的條件概率,即後驗概率,並用這個原理進行模型的估計,以及對資料的**。將模型、未觀測要素及其引數用變數表示,使用模型的先驗分布是貝葉斯學習的特點

統計學習方法的三要素有:模型+策略+演算法

1、模型:模型就是要學習的條件概率分布或決策函式

假設空間可以是決策函式或者條件概率的集合

2、策略

損失函式:損失函式越小,模型就越好

期望損失:模型關於聯合分布的平均意義下的損失,稱為風險損失或期望損失

經驗損失:模型關於訓練集的平均損失成為經驗風險

經驗風險最小化:經驗風險最小化下的模型是最優模型,經驗風險最小化能保證有很好的學習效果(比如乙個人的經驗積累越多,判別力肯定會越好)但是當樣本容量很小的時候,

經驗風險最小化的學習效果未必很好(畢竟走過的路有點小,以為世界就那麼大,所以很容易做出錯誤的判斷),可能會產生「過擬合(over-fitting)」現象。因此這時需要結構風險最小化

結構風險最小化:防止出現過擬合,在經驗風險上加上表示模型複雜度的正則化項,用來對模型的複雜度進行懲罰,模型越複雜,懲罰就越大,模型越簡單,懲罰就越小。

結構風險要最小,需要經驗風險和模型複雜度同時最小

3、演算法

在進行統計學習的時候我們需要把訓練集分為訓練集和測試集,兩者沒有交集,有時候分為:訓練集、驗證集和測試集

訓練誤差是在訓練的時候產生的誤差,反映的是模型的學習能力

測試誤差反應模型對未知事物的**能力。

過擬合:模型在訓練集上表現很好,在測試集上表現不好的現象,通常造成的原因可能是訓練集的樣本過少,出現以偏概全,還有可能是模型的複雜度過大,模型在訓練的時候學習了一些其他不希望出現的特徵。

模型選擇的方法:正則化和交叉驗證

正則化就是結構風險最小化,在經驗風險上新增正則項用於對模型複雜度的懲罰。

交叉驗證:重複地使用資料,把給定的資料切分,再將分好的資料重複的組合為訓練集和測試集,反覆地訓練、測試。

生成模型和判別模型:

生成模型:生成方法是由資料學習聯合概率分布p(x,y)然後求出條件概率分布p(y|x)作為**的模型,即生成模型。給定輸入x產生輸出y的關係,因此稱為生成模型,常用的模型有:樸素貝葉斯、隱馬爾科夫模型

判別模型:由資料直接學習決策函式f(x)或者條件概率分布p(y|x)作為**模型,判別方法關心的是對於給定的輸入x,我們應該**得到什麼樣的輸出y,常見的判別模型有:k近鄰法,感知機,決策樹,邏輯斯蒂回歸模型

最大熵模型,支援向量機、提公升方法和條件隨機場

幾種模型評估標準:

tp-將正類**為正類數(d)

fn-將正類**為負類數(c)

fp-將負類**為正類數(b)

tn-將負類**為負類數(a)

精確率:p= d/(d+b)

召回率:r= d / (d+c)

f1:精確率和召回率的調和均值

f1 = (2 *p *r)/(p+r)

準確率:ac

ac= (a+d)/(a+d+b+c)

roc曲線(詳見機器學習西瓜書)

"""

統計學習方法 第一章統計學習方法概論

1.統計學習的方法是基於資料構建統計模型從而對資料進行 與分析。統計學習由監督學習,非監督學習,半監督學習和強化學習等組成。2.輸入變數和輸出變數都是連續變數,稱為回歸問題 輸出變數為有限個離散變數的 問題為分類問題 輸入變數和輸出變數均為變數序列的 問題稱為標註問題。3.統計學習常用的損失函式 0...

第一章 統計學習方法概論

統計學習的定義 研究物件和方法 監督學習 統計學習方法的三要素 模型 策略和演算法 模型選擇 生成模型與判別模型 應用 分類 標註和回歸 統計學習 statistical learning 是關於計算機基於資料構建概論統計模型並運用模型對資料進行 與分析的一門學科。統計學習也稱為統計機器學習 sta...

第一章 統計學習方法概論

統計學習方法是基於資料構建統計模型從而對資料進行 和分析 統計學習方法由監督學習非監督學習 半監督學習和強化學習等組成。主要討論監督學習 統計學習方法步驟 有限訓練集合 確定學習模型集合 模型選擇 確定模型選擇準則 策略,損失函式確定 實現求解最優化模型演算法 演算法,梯度下降演算法選擇 最優化模型...