PRML筆記 第一章 Introduction

2022-09-11 19:12:18 字數 1014 閱讀 4822

模式識別關注在資料中自動發現資訊並採取行動,例如資料分類。

例子:手寫識別。使用規則等方法將導致複雜的規則和例外情況。使用機器學習方法,利用訓練集自動調整引數。目標模式是已知的數字0-9,成為目標向量t。模式識別的推廣能力是乙個中心目標!

預處理:又稱為特徵提取。輸入資料大多數需要預處理,是模式識別更加容易!同時,預處理可以提高效率,但應該注意資訊丟失,準確度下降。

分類:有目標向量:監督學習(離散與連續:分類與回歸)。

無目標向量:無監督學習:聚類,密度估計,資料視覺化等

reinfocement learning:強化學習:找到合適的行為,並給出評價。信用分配問題:每個行為對最終結果(評價)的影響

細節本書不討論。

1.1 例子:多項式曲線擬合

sin函式加上高斯分布雜訊生成訓練資料,在不知道模型的情況下**新的輸入的輸出值。

有限訓練集加上雜訊使得問題本質上困難。概率模型提供了雜訊不確定性的量化,決策論利用概率量化和決策規則做出**。

多項式模型雖然是輸入x的非線性函式,但是是引數w的線性函式,稱為線性模型。將在第3,4章討論。

調整w,使誤差函式最小化,得到擬合函式結果。

誤差函式是衡量模型輸出與實際輸出的偏差,常使用誤差平方和。誤差函式的選擇有概率意義。

誤差函式相對於w是二次函式,所以導數是一次的,最優化問題有唯一解(另導數=0,等價於解乙個線性方程組)

選擇最高項次數m稱為模型選擇問題,m可以代表模型複雜度,不合適的m會導致欠擬合和過擬合。

sin的展開式是無窮次的,但是m太大,test error反而激增。觀察w發現高次項w非常大,原因是引數越來越向著隨機雜訊調和(資料集太小)!

有些啟發式的方法提出資料量應該為參數量的幾倍,但第三章說明參數量不是模型複雜度衡量的必要因素。

貝葉斯方法可以自動調整有效的引數個數。

使用正規化技術可以解決過擬合問題。對過大的引數進行懲罰!二次正規化項又成為「嶺回歸」,在神經網路的上下文又稱為「權值衰減」。

正規化引數的選擇也可以通過實驗的方式衡量訓練誤差和驗證誤差來選擇。

PRML第一章 概率論

sum rule p x yp x y product rule p x,y p y x p x 2.貝葉斯理論 p y x p x y p y p x 先驗概率和後驗概率 例如先驗概率是p b 不需要給定的f,就可以得到的概率叫做先驗概率。後驗概率是p b f 給定f之後,才得到的概率就叫做後驗概...

python第一章筆記 第一章 基礎

參與除法的兩個數中有乙個數為浮點數,結果也為浮點數 如 1.0 2,1 2.0,1.0 2.0 python print 1.0 2 結果 0.5 print 1 2.0 結果 0.5 print 1.0 2.0 結果 0.5 整數 整數,計算結果的小數部分被截除,只保留整數部分 不會四捨五入 如 ...

第一章 筆記

2.呼叫mat的size 方法,可以獲取該影象的尺寸。返回的是乙個結構體。mat image cout height 3.在原地進行的影象變換 mat image,result flip image,result,1 1 表示水平翻轉 2 表示垂直翻轉 負數表示既有水平也有垂直翻轉 imwrite ...