閱讀筆記 頻率視角下的機器學習

2021-09-11 04:14:43 字數 2162 閱讀 5357

統計學

統計機器學習

頻率學派

對於概率的解讀,有兩種不同的解讀方式,這兩種不同的思維方式導致了對機器學習的兩種截然不同的解讀。

機器學習的任務是基於現有的資料來構造模型,然後利用模型對未知資料進行**分析。事件本身的發生是一種概率模型,因此對概率的認知方式不同,決定著對模型本質的理解,構造方式有著天然的差異。

在頻率學派眼中,概率是什麼呢?

答案是:事件發生的頻率的極限值。

對於這個的理解,實際上我們是常常無意識的在應用這個觀點的,比如數學課本上會用拋硬幣很多次統計正反面出現的頻率,計算出正反面出現的比例,就作為概率來使用。

乙個顯然的常識是,拋的次數太少,是無法得到50%這樣的概率值的,只有拋得夠多,比如上千次,上萬次,大概頻率的比值會收斂到50%左右。

事實上,頻率學派眼中,當重複試驗的次數趨近於無窮大時,事件發生的頻率會收斂到概率之上。 – 《機器學習40講》

在這個常識背後,隱藏著乙個前提,那就是:概率是乙個確定的值,不會受到單次觀察結果的影響。

在頻率學派的眼裡,待估計的引數是固定不變的常量,即引數不是概率分布,而在引數主導下的觀測資料,因為雜訊和各種干擾的存在,反倒是隨機變數

即,資料分布的波動,不是**於引數的分布,而是有限次觀察造成的干擾。

統計機器學習的核心是從資料中來,到資料中去,通過對資料進行擬合,逼近背後的規律,然後應用規律去**分析未知的資料。

取樣分布與最大似然估計

統計學習的核心任務:利用從總體中抽取的樣本來估計未知的總體引數。

樣本資料本身的分布,被稱之為取樣分布,注意頻率學派將樣本資料視作隨機變數,所以在確定了樣本的分布後,對總體的引數估計的任務就變為乙個最優化問題

比如頻率學派常用的最大似然估計

最大似然估計的目標

最大似然估計在概率論與數理統計這門課程裡,我們一般只學會了如何利用它,而沒有去深究背後的道理。

最大似然估計的目標非常明確,就是讓似然概率最大化。換句話說,就是在總體引數固定的情況下(這是頻率學派的基本假設),讓資料出現的條件概率最大化

什麼是似然函式?

似然函式就是概率的反過程,已知實驗結果,去估計引數的過程。

當給出一次觀察結果,我們可以對這個觀察結果,可以是一次,也可以是多次,構建乙個關於引數的函式,結合著頻率學派的乙個基本出發點:

一組資料之所以能在單次試驗**現,是因為它出現的可能性最大

於是我們可以將這個關於引數的函式最大化,即賦予觀測資料最大似然概率的過程,就是引數估計的過程。

簡單總結一下就是:頻率學派解決統計問題的基本思路就是,引數確定,資料隨機。利用隨機的資料來推斷確定的引數,所以得到的結果也是隨機的。

即使上帝真的擲色子,但從色子脫手的那一刻起,它的點數就不再受上帝的控制。 – 《機器學習40講》

統計機器學習的做法

由頻率學派的基本教義出發,可以得出統計學習的一般做法。

那就是,對給定的指標,如似然函式或者是均方誤差,進行最優化,來估計模型中的引數取值。

損失函式

觀測資料並不能精確反映未知引數,因為有雜訊和干擾的存在。但我們還是需要對估計的結果的精度進行衡量,這個度量就交給了損失函式。

損失函式的期望則被稱之為風險。將風險最小化就是引數估計的依據和準則。

但是,這個過程如下:

資料的分布需要未知引數的精確取值 --> 在資料的概率分布上對損失函式積分–> 計算風險 --> 估計最優引數

可以看出首尾依賴,而末尾則是我們的目的,所以這是個迴圈依賴問題。

對於頻率學派而言,這個問題簡單描述就是:風險函式是無法精確求解的。

為了應對這個問題,統計機器學習引入了新的概念:經驗風險

即:用訓練資料的經驗分布來替換資料的真實分布。

end.

機器學習 搜尋的視角

2018 12 19 原來的時候,就看了那片博士 將機器學習巢狀為搜尋的框架 那篇 的題目是 機器學習為什麼能工作 文章 1 是將構造乙個學習系統作為了搜尋問題。他的搜尋目的,是選擇演算法 模型 引數 資料等這些內容。原來的時候,那本 集體智慧型程式設計 的書,中間穿插了乙個章節的啟發式演算法來講搜...

《機器學習實戰》閱讀筆記(三)

接上篇 2.2.3準備資料 歸一化數值 由於數值較大的值會產生較大的影響,所以需要歸一化,公式如下 newvalue oldvalue min max min 歸一化函式如下 def autonorm dataset minvals dataset.min 0 maxvals dataset.max...

白話大資料與機器學習 閱讀筆記

第八章 回歸 線性回歸 擬合 y ax b e 複製 殘差分析 最小二乘法 誤差e e ax b y 複製 求e的和q q sum n ax i b y i 2 複製 問題轉化為求q最小值時a,b的值,即 frac 0 frac 0 複製 過擬合 為了迎合所有樣本向量點甚至雜訊點而使模型描述過去複雜...