1、頻率學派和貝葉斯派
頻率學派認為引數是固定而未知的,關心似然函式。
貝葉斯派認為引數是隨機的有分布的,關心後驗分布。
2、mle、map公式
3、引數估計-mle
4、引數估計-map
map與mle最大的不同在於p(引數)項,map將先驗知識加入,優化損失函式。
5、mle、map、bayesian統一理解
ml(最大似然估計):給定乙個模型的引數,然後試著最大化p(d|引數)。即給定引數的情況下,看到樣本集的概率。目標是找到使前面概率最大的引數。邏輯回歸都是基於ml做的。mle不把先驗知識加入模型中。
map(最大後驗估計):最大化p(引數|d)。
bayesian:考慮了所有可能的引數,即所有的引數空間(引數的分布)。
mle和map的目標都是一樣的:找到乙個最優解,然後用最優解做**。貝葉斯模型會給出對引數的乙個分布,比如對模型的引數, 假定引數空間裡有引數1、引數2、 引數3、...、引數n,貝葉斯模型學出來的就是這些引數的重要性(也就是分布),然後當我們對新的樣本**的時候,就會讓所有的模型一起去**,但每個模型會有自己的權重(權重就是學出來的分布)。最終的決策由所有的估計根據其權重做出決策。
5、從統計學角度理解機器學習,不無三要素:特徵工程、目標函式、模型學習,機器學習的本質是用計算機統計地估計複雜函式。
定義假設空間(model assumption):如線性分類,線性回歸,邏輯回歸,svm,深度學習網路等。
定義損失函式(目標函式)並優化求解(如:梯度下降,牛頓法等)。
不同的模型使用不同的演算法,如邏輯回歸通常用梯度下降法解決,神經網路用反向推導解決,貝葉斯模型則用mcmc來解決。
機器學習 = 模型 + 優化(不同演算法)
參考:
最大似然估計 MLE 和最大後驗 MAP
頻率學派 貝葉斯學派x表示某乙個具體的資料 theta 表示模型的引數。如果 是已知確定的,是變數,這個函式叫做概率函式 probability function 它描述對於不同的樣本點x,其出現概率是多少。如果x xx是已知確定的,是變數,這個函式叫做似然函式 likelihood functio...
最大似然估計 MLE 與最大後驗估計 MAP
對於函式p x 從不同的觀測角度來看可以分為以下兩種情況 如果 已知且保持不變,x是變數,則p x 稱為概率函式,表示不同x出現的概率。如果x已知且保持不變,是變數,則p x 稱為似然函式,表示不同 下,x出現的概率,也記作l x 或l x 或f x 最大似然估計是已知模型服從某種分布,但不知道其某...
最大似然估計(MLE)和最大後驗概率估計(MAP)
最大似然估計 mle 和最大後驗概率估計 map 是很常用的兩種引數估計方法。下文將詳細說明mle和map的思路與區別。但別急,我們先從概率和統計的區別講起。一 概率和統計是乙個東西嗎?概率 probabilty 和統計 statistics 看似兩個相近的概念,其實研究的問題剛好相反。概率研究的問...