plsa: probabilistic latent semantic analysis
在文字處理中,我們常常直接根據文字的內容,將document 和term直接關聯分析,比如計算term frequency等。而在topic模型中,我們認為document是有主題topic的,topic才是直接和term關聯的,但是topic又是不可觀測的變數,所以它是乙個隱含變數,則document 和term都可以看成是該隱含變數的分布。具體如圖:
由於topic是隱含變數,那如何描述doc,topic,term之間的關係呢,這裡假設每篇文件d都可以以概率p(z|d)屬於某乙個主題,並且在給定主題後,每個詞都以一定的概率p(w|z)產生,這樣文件和詞一同出現的概率就可以通過概率來進行描述:
通過plsa分析可以得到p(d|z), p(w|z)的概率。
利用圖模型的plsa的描述為:
那麼改如何求解?我們都知道在p(d,w)含有隱含變數,如果直接利用最大似然函式的方法來求解的話, 就會遇到類似於gmm的問題,難以直接求解,那麼同樣可以採用em演算法來進行求解:
目標是doc和term的聯合概率的似然函式最大:
其中e-step來估計概率:
m-step:來更新引數:
直至最後收斂。
Topic Model的分類總結(LDA變種)
topic models主要可以分為四大類 1.無監督無層次結構,主要有 1 plsa hofmann 1999 2 lda blei et al.2003 3 correlated topic model blei and lafferty,2006 ctm主要是為了克服標準lda模型不能建模話題...
Topic Model的分類總結(LDA變種)
topic models主要可以分為四大類 1.無監督無層次結構,主要有 1 plsa hofmann 1999 2 lda blei et al.2003 3 correlated topic model blei and lafferty,2006 ctm主要是為了克服標準lda模型不能建模話題...
Topic Model的分類總結(LDA變種)
topic models主要可以分為四大類 1.無監督無層次結構,主要有 1 plsa hofmann 1999 2 lda blei et al.2003 3 correlated topic model blei and lafferty,2006 ctm主要是為了克服標準lda模型不能建模話題...