不知看過多少次極大似然估計與最大後驗概率估計的區別,但還是傻傻分不清楚。或是當時道行太淺,或是當時積累不夠。
這次重遊機器學習之路,看到李航老師《統計學習方法》中第一章關於經驗風險最小化與結構風險最小化時談到了極大似然與最大後驗的話題,第一反應是竟然在第一章就談到了極大似然與最大後驗,相信大部分初學者看到這兩個詞時還是怕怕的,畢竟沒有太多理論基礎。不過沒關係,多積累,多蒐集相關資料,相信這層疑惑的雲霧會逐漸散去的。
在說極大似然估計(maximum likelihood estimate)與最大後驗概率估計(maximum a posteriori estimation)之前,不得不說對於概率看法不同的兩大派別頻率學派與貝葉斯派。他們看待世界的視角不同,導致他們對於產生資料的模型引數的理解也不同。
① 頻率學派
他們認為世界是確定的。他們直接為事件本身建模,也就是說事件在多次重複實驗中趨於乙個穩定的值p,那麼這個值就是該事件的概率。
他們認為模型引數是個定值,希望通過類似解方程組的方式從資料中求得該未知數。這就是頻率學派使用的引數估計方法-極大似然估計(mle),這種方法往往在大資料量的情況下可以很好的還原模型的真實情況。
② 貝葉斯派
他們認為世界是不確定的,因獲取的資訊不同而異。假設對世界先有乙個預先的估計,然後通過獲取的資訊來不斷調整之前的預估計。 他們不試圖對事件本身進行建模,而是從旁觀者的角度來說。因此對於同乙個事件,不同的人掌握的先驗不同的話,那麼他們所認為的事件狀態也會不同。
他們認為模型引數源自某種潛在分布,希望從資料中推知該分布。對於資料的觀測方式不同或者假設不同,那麼推知的該引數也會因此而存在差異。這就是貝葉斯派視角下用來估計引數的常用方法-最大後驗概率估計(map),這種方法在先驗假設比較靠譜的情況下效果顯著,隨著資料量的增加,先驗假設對於模型引數的主導作用會逐漸削弱,相反真實的資料樣例會大大佔據有利地位。極端情況下,比如把先驗假設去掉,或者假設先驗滿足均勻分布的話,那她和極大似然估計就如出一轍了。
我們這有乙個任務,就是根據已知的一堆資料樣本,來推測產生該資料的模型的引數,即已知資料,推測模型和引數。因此根據兩大派別的不同,對於模型的引數估計方法也有兩類:極大似然估計與最大後驗概率估計。
① 極大似然估計(mle)
-她是頻率學派模型引數估計的常用方法。
-顧名思義:似然,可以簡單理解為概率、可能性,也就是說要最大化該事件發生的可能性
-她的含義是根據已知樣本,希望通過調整模型引數來使得模型能夠最大化樣本情況出現的概率。
- 在這舉個猜黑球的例子:假如乙個盒子裡面有紅黑共10個球,每次有放回的取出,取了10次,結果為7次黑球,3次紅球。問拿出黑球的概率 p 是多少?
我們假設7次黑球,3次紅球為事件 a ,乙個理所當然的想法就是既然事件 a已經發生了,那麼事件 a 發生的概率應該最大。所以既然事件 a 的結果已定, 我們就有理由相信這不是乙個偶然發生的事件,這個已發生的事件肯定一定程度上反映了黑球在整體中的比例。所以我們要讓模型產生這個整體事件的概率最大,我們把這十次抽取看成乙個整體事件 a ,很明顯事件 a 發生的概率是每個子事件概率之積。我們把 p(a) 看成乙個關於 p 的函式,求 p(a) 取最大值時的 p ,這就是極大似然估計的思想。具體公式化描述為p(a)=p^7*(1-p)^3。
接下來就是取對數轉換為累加,然後通過求導令式子為0來求極值,求出p的結果。
② 最大後驗概率估計(map)
-她是貝葉斯派模型引數估計的常用方法。
-顧名思義:就是最大化在給定資料樣本的情況下模型引數的後驗概率
-她依然是根據已知樣本,來通過調整模型引數使得模型能夠產生該資料樣本的概率最大,只不過對於模型引數有了乙個先驗假設,即模型引數可能滿足某種分布,不再一味地依賴資料樣例(萬一資料量少或者資料不靠譜呢)。
-在這裡舉個擲硬幣的例子:拋一枚硬幣10次,有10次正面朝上,0次反面朝上。問正面朝上的概率p。
在頻率學派來看,利用極大似然估計可以得到 p= 10 / 10 = 1.0。顯然當缺乏資料時mle可能會產生嚴重的偏差。
如果我們利用極大後驗概率估計來看這件事,先驗認為大概率下這個硬幣是均勻的 (例如最大值取在0.5處的beta分布),那麼p(p|x),是乙個分布,最大值會介於0.5~1之間,而不是武斷的給出p= 1。
顯然,隨著資料量的增加,引數分布會更傾向於向資料靠攏,先驗假設的影響會越來越小。
經驗風險最小化與結構風險最小化是對於損失函式而言的。可以說經驗風險最小化只側重訓練資料集上的損失降到最低;而結構風險最小化是在經驗風險最小化的基礎上約束模型的複雜度,使其在訓練資料集的損失降到最低的同時,模型不至於過於複雜,相當於在損失函式上增加了正則項,防止模型出現過擬合狀態。這一點也符合奧卡姆剃刀原則:如無必要,勿增實體。
經驗風險最小化可以看作是採用了極大似然的引數評估方法,更側重從資料中學習模型的潛在引數,而且是只看重資料樣本本身。這樣在資料樣本缺失的情況下,很容易管中窺豹,模型發生過擬合的狀態;結構風險最小化採用了最大後驗概率估計的思想來推測模型引數,不僅僅是依賴資料,還依靠模型引數的先驗假設。這樣在資料樣本不是很充分的情況下,我們可以通過模型引數的先驗假設,輔助以資料樣本,做到盡可能的還原真實模型分布。
① 經驗風險最小化
-mle她是經驗風險最小化的例子。當模型是條件概率分布,損失函式是對數損失函式時,經驗風險最小化就等價於極大似然估計。在這裡舉個邏輯回歸(lr)的例子,更多跟lr有聯絡的模型可參看拙作由logistic regression所聯想到的...。
② 結構風險最小化
-map她是結構風險最小化的例子。當模型是條件概率分布、損失函式是對數損失函式、模型複雜度由模型的先驗概率表示時,結構風險最小化就等價於最大後驗概率估計。 在這裡舉個推薦系統中的概率矩陣分解(pmf)的例子。
先說下矩陣分解的原理:推薦系統的評分**場景可看做是乙個矩陣補全的遊戲,矩陣補全是推薦系統的任務,矩陣分解是其達到目的的手段。因此,矩陣分解是為了更好的完成矩陣補全任務(欲其補全,先其分解之)。之所以可以利用矩陣分解來完成矩陣補全的操作,那是因為基於這樣的假設-假設ui矩陣是低秩的,即在大千世界中,總會存在相似的人或物,即物以類聚,人以群分,然後我們可以利用兩個小矩陣相乘來還原評分大矩陣。
-這樣,我們通過最大後驗概率估計推導出了概率矩陣分解的損失函式。可以看出結構風險最小化是在經驗風險最小化的基礎上增加了模型引數的先驗。
-在介紹經驗風險與結構風險最小化的時候以具體的邏輯回歸(lr)與概率矩陣分解(pmf)模型來介紹mle和map,接下裡從巨集觀的角度,不侷限於具體的某個模型來推導mle與map。
至此,頻率學派與貝葉斯派,mle與map,經驗風險最小化與結構風險最小化的區別與聯絡已經介紹完畢了,由於本人不是資料專業出身的,並且也是機器學習初學者,難免在敘述或者思考的過程中有不嚴謹或者不正確的東西,希望大家批判的去看待。
再次感謝以上參考資料以及大牛們的分享。
最大似然估計 極大似然估計
目錄最大似然估計 個人部落格 對於最大似然估計我們使用最簡單的拋硬幣問題來進行講解當我們拋一枚硬幣的時候,就可以去猜測拋硬幣的各種情況的可能性,這個可能性就稱為概率一枚質地均勻的硬幣,在不考慮其他情況下是符合二項分布的,即正面和翻面的概率都是0.5,那麼我們拋10次硬幣5次正面在上面的概率為 但是現...
極大似然估計
在機器學習的領域內,極大似然估計是最常見的引數估計的方法之一,在這裡整理一下它的基本原理。極大似然估計從根本上遵循 眼見為實,這樣的哲學思想。也就是說,它嚴格地僅僅利用了已知的實驗結果,來估計概率模型中的引數。極大似然估計的計算過程非常簡單 1.寫出似然函式 2.求出使得似然函式取最大值的引數的值,...
極大似然估計
一 理論基礎 1 引例 某位同學與一位獵人一起外出打獵,乙隻野兔從前方竄過。只聽一聲槍響,野兔應聲到下,如果要你推測,這一發命中的子彈是誰打的?你就會想,只發一槍便打中,由於獵人命中的概率一般大於這位同學命中的概率,看來這一槍是獵人射中的。這個例子所作的推斷就體現了極大似然法的基本思想。2 簡介 極...