topic models主要可以分為四大類:
1.無監督無層次結構, 主要有:
(1)plsa
(hofmann 1999),
(2) lda
(blei et al., 2003),
(3)correlated topic model
(blei and lafferty, 2006 )
ctm主要是為了克服標準lda模型不能建模話題在文件中出現的相關性的缺點,將lda中文件話題分布服從的dirichlet分布改為logistic正態分佈。例如ctm**中舉的乙個例子是在science雜誌語料中,一篇遺傳學文章很可能也跟健康和疾病有關,但是卻不大可能跟射線天文學有關。
因為logistic正態分佈不再是multinomial分布的共軛分布,因此模型的解變得更加複雜。對此,作者使用的方法是,在變分推理的過程中,繼續使用taylor展開式以簡化似然函式下界的複雜性。
圖x correlated topic model 模型的圖形表示
07年ctm詳細版本:ctm2007
ctm的變分推導細節見另乙個學者的文件:
variational em algorithms for correlated topic models
(4) pam
(li and mccallum, icml 2006),
concept topic model等
2.無監督
有層次結構
,主要有:
hlda
(blei nips 2003),
hdp(teh et al., 2005):標準lda模型中話題的個數k需要已知,然而很多時候確定k的大小是一件困難的事情。hdp能夠根據資料自動確定k的大小。
hpam
(mimno et al., icml 2007)
3.有監督無層次結構,
主要有:
s-lda
( blei et al., 2007), disc-lda, mm-lda, author-model,
labeled lda
(ramage et al., 2009),
plda
(wang et al., 2009) 等
4.有監督有層次結構,
主要有:
hllda
(petinot et al., acl 2011), hslda
(hierarchically supervised latent dirichlet allocation, perotte et al., nips 2012)
除上述集中型別的話題模型外,還有一些半監督的話題模型,主要有:
semi-lda
(wang et al. 2007),
sshlda
(semi-supervised hierarchical topic model, mao emnlp 2012)
另一些lda變種主要是為了描述一些鏈結資訊而作的擴充套件:
link lda
(2004)
topic-link lda
(liu et al., icml 2009)
rtm(chang and blei,
aistats 2009): relational topic models: 文件之間有連線關係,即對乙個文件網路建模。使用乙個響應變數來表示文件之間的關係。
author-topic model
(rosen-zvi et al., uai 2004): 將文件作者也考慮進去
dtm(blei and lafferty, icml 2006) dynamic topic models,話題隨時間的演變
stm(pathak, et al., kdd workshop 2008)social topic models for community extraction
social-network analysis using topic model sigir2012
Topic Model的分類總結(LDA變種)
topic models主要可以分為四大類 1.無監督無層次結構,主要有 1 plsa hofmann 1999 2 lda blei et al.2003 3 correlated topic model blei and lafferty,2006 ctm主要是為了克服標準lda模型不能建模話題...
Topic Model的分類總結(LDA變種)
topic models主要可以分為四大類 1.無監督無層次結構,主要有 1 plsa hofmann 1999 2 lda blei et al.2003 3 correlated topic model blei and lafferty,2006 ctm主要是為了克服標準lda模型不能建模話題...
topic model之PLSA的簡單理解
plsa probabilistic latent semantic analysis 在文字處理中,我們常常直接根據文字的內容,將document 和term直接關聯分析,比如計算term frequency等。而在topic模型中,我們認為document是有主題topic的,topic才是直接...