機器學習筆記(1)

2021-12-30 11:59:47 字數 982 閱讀 9131

機器學習筆記。

1 經驗誤差與過擬合

2 評估方法

測試集與訓練集互斥

2.1 留出法

資料集劃分為兩個互斥集,乙個用作訓練,乙個用作測試。

注意資料分布一致性? 分層取樣(正反例比例一致)。

由於按比例分割可能存在樣本次序的關係,(正例/反例的具體化為可能影響結果的分析),需要進行多次隨機劃分,重複實驗取平均值。

困惑:若訓練集包含大多數樣本,則訓練出的模型可能更接近真實模型,但是測試集比例小,導致評估結果不准去。若測試集包含更多樣本,則訓練集和真實集相差會增大,被評估模型同真是模型相差較大哦。

通常做法:2/3 -> 4/5資料用於做訓練集。

2.2 交叉檢驗

資料集劃分為k個大小相似的互斥子集。

每個子集保持資料分布一致。

用k-1個子集做訓練,剩下的做測試。

進行k次試驗,結果為k次均值。

推論:留一法。但是當資料集較大,則訓練開銷過大

2.3 自助法

由來:上兩種方法由於訓練集小於資料集,導致因為訓練樣本規模引起的估計誤差。

基礎:自助取樣法,? 放回取樣m次,取極限得到樣本在m次取樣中不被採到的概率為0.368 。

結果:測試集等於資料集,但是有三分之一的資料可以用於評估。

場景:資料集較小,難以劃分測試/訓練集時比較管用。

缺點:會改變原始資料分布,引入估計偏差。因此當原始資料量足夠時,留出法和交叉檢驗會比較常用。

2.4 調參與最終模型

由於引數是在實數中取值,因此對於每種引數都訓練出模型是不可行的。

通常做法,引數選定範圍和步長,實際結果從候選值中選出。

測試集用語評估模型實際使用的泛化能力,驗證集上的效能用來評估模型和調參。

3 效能度量

泛化能力的評估。

回歸任務中使用均方誤差,可用資料分布和概率密度描述

3.1 錯誤率和精度

3.2 查準率和查全率

機器學習筆記 1

1 機器學習的定義 如果乙個程式可以在任務t上,隨經驗e的增加,效果p隨之增加,則這個程式可以從經驗中學習。過程 單個神經元 2 基於tensorflow的nn 神經網路 用張量表示資料,用計算圖搭建神經網路,用會話執行,優化線上的權重 引數 得到模型。2.1 張量 多維陣列 列表 階 表示張量的維...

機器學習筆記1

高斯分布屬於指數分布族,線性最小二乘就是基於高斯分布。線性最小二乘 最大似然 最小二乘。高斯判別分析 gda 針對的是特徵向量 x 為連續值時的問題,而樸素貝葉斯 nb 針對的是特徵向量 x 為離散值時的問題。gda 比 logistic 回歸有更嚴格的前置假設。當資料服從或大致服從正態分佈時,使用...

機器學習筆記1

高斯分布屬於指數分布族,線性最小二乘就是基於高斯分布。線性最小二乘 最大似然 最小二乘。高斯判別分析 gda 針對的是特徵向量 x 為連續值時的問題,而樸素貝葉斯 nb 針對的是特徵向量 x 為離散值時的問題。gda 比 logistic 回歸有更嚴格的前置假設。當資料服從或大致服從正態分佈時,使用...