貝葉斯學派的論點:
頻率學派:
貝葉斯學派:
theta是乙個定值theta是乙個分布
樣本是隨機的,因此研究樣本的分布認為theta是隨機的,因而研究引數的分布
x1,x2~n(theta,100)
生成過程
在plsa中,我們假定文件是這樣生成的:
你不停的重複扔
「文件-主題」
骰子和」主題-詞項「骰子
,重複n次(產生n個詞),完成一篇文件,重複這產生一篇文件的方法m次,則完成m篇文件。
按照概率
選定文件後,從主題分布中按照概率
選定後,從詞分布中按照概率
在lda中,只是加入了乙個dirichlet先驗
反推過程
假定結束之後,那麼如何
根據已經產生好的文件反推其主題呢?
文件d和單詞w自然是可被觀察到的,但主題z卻是隱藏的。如下圖所示(
圖中被塗色的d、w表示可觀測變數,未被塗色的z表示未知的隱變數,n表示一篇文件中總共n個單詞,m表示m篇文件):
上圖中,文件d和詞w是我們得到的樣本(樣本隨機,引數雖未知但固定,所以plsa
屬於頻率派思想。區別於下文要介紹的lda中:樣本固定,引數未知但不固定,是個隨機變數,服從一定的分布,所以lda屬於貝葉斯派思想
),可觀測得到,所以
對於任意一篇文件,其
從而可以
根據大量已知的文件-詞項資訊
主題-詞項
故得到文件中每個詞的生成概率為:由於而,通俗點說,就是要最大化這個θ。
這也算極大似然原理,我手中的樣本是wj,我要認為「既然我得到了這個樣本,那麼我一定要讓這個樣本出現的概率最大」 即,最大化p(di,wj)
用什麼方法進行估計呢,常用的引數估計方法有極大似然估計mle、最大後驗證估計map、貝葉斯估計等等。因為該待估計的引數中含有隱變數z,所以我們可以考慮em演算法。
plsa和lda在反推引數的不同
上面對比了plsa跟lda生成文件的不同過程,下面,咱們反過來,假定文件已經產生,反推其主題分布。那麼,它們估計未知引數所採用的方法又有什麼不同呢?
貝葉斯 01 初識貝葉斯
分割線 分割線 分割線 分割線 分割線 分割線 分割線 分割線 分割線 分割線 分割線 分割線 分割線 最先知道貝葉斯公式還是四年前的概率論和數理統計課上,時間也很久了,具體內容早已經忘記,不過畢竟曾經學過,重新看過還是得心應手的。大概用兩三篇的內容來介紹一下貝葉斯,以及機器學習中很重要的一部分 樸...
貝葉斯 02 理解貝葉斯
首先簡略回顧一下,全概率和貝葉斯。其實這兩者是密不可分的,互相之間是乙個順序問題,全概率反過去就是貝葉斯,這類問題只需要區分清楚是知道原因求結果,還是知道結果尋原因就可以了。全概率公式是計算由諸多原因而導致的某件複雜事情發生的概率,而貝葉斯就是在這件複雜的事情已經發生的前提下,去尋找諸多原因中,某一...
坦克問題的頻率及貝葉斯解釋
貝葉斯解釋 參考資料 在統計學理論的估計中,用不放回抽樣來估計離散型均勻分布最大值問題在英語世界中是著名的德國坦克問題 german tank problem 它因在第二次世界大戰中用於估計德國坦克數量而得名。本文將從頻率以及貝葉斯的角度探索坦克問題。假設所有的德國坦克是從1開始按自然數遞增編號的,...