Topic Model的分類總結(LDA變種)

2021-06-17 15:43:51 字數 2131 閱讀 1255

**:

topic models主要可以分為四大類:

1.無監督無層次結構, 主要有:

(1)plsa

(hofmann 1999), 

(2) lda

(blei et al., 2003), 

(3)correlated topic model

(blei and lafferty, 2006 )

ctm主要是為了克服標準lda模型不能建模話題在文件中出現的相關性的缺點,將lda中文件話題分布服從的dirichlet分布改為logistic正態分佈。例如ctm**中舉的乙個例子是在science雜誌語料中,一篇遺傳學文章很可能也跟健康和疾病有關,但是卻不大可能跟射線天文學有關。

因為logistic正態分佈不再是multinomial分布的共軛分布,因此模型的解變得更加複雜。對此,作者使用的方法是,在變分推理的過程中,繼續使用taylor展開式以簡化似然函式下界的複雜性。

圖x correlated topic model 模型的圖形表示

07年ctm詳細版本:ctm2007

ctm的變分推導細節見另乙個學者的文件:

variational em algorithms for correlated topic models

(4) pam

(li and mccallum, icml 2006),

concept topic model等

2.無監督

有層次結構

,主要有:

hlda

(blei nips 2003), 

hdp(teh et al., 2005):標準lda模型中話題的個數k需要已知,然而很多時候確定k的大小是一件困難的事情。hdp能夠根據資料自動確定k的大小。

hpam

(mimno et al., icml 2007)

3.有監督無層次結構

主要有: 

s-lda

( blei et al., 2007), disc-lda, mm-lda, author-model, 

labeled lda

(ramage et al., 2009), 

plda

(wang et al., 2009) 等

4.有監督有層次結構

主要有:

hllda

(petinot et al., acl 2011), hslda

(hierarchically supervised latent dirichlet allocation, perotte et al., nips 2012)

除上述集中型別的話題模型外,還有一些半監督的話題模型,主要有:

semi-lda

(wang et al. 2007), 

sshlda

(semi-supervised hierarchical topic model, mao emnlp 2012)

另一些lda變種主要是為了描述一些鏈結資訊而作的擴充套件:

link lda 

(2004)

topic-link lda

(liu et al., icml 2009)

rtm(chang and blei, 

aistats 2009): relational topic models: 文件之間有連線關係,即對乙個文件網路建模。使用乙個響應變數來表示文件之間的關係。

author-topic model

(rosen-zvi et al., uai 2004): 將文件作者也考慮進去

dtm(blei and lafferty, icml 2006) dynamic topic models,話題隨時間的演變

stm(pathak, et al., kdd workshop 2008)social topic models for community extraction

social-network analysis using topic model sigir2012

Topic Model的分類總結(LDA變種)

topic models主要可以分為四大類 1.無監督無層次結構,主要有 1 plsa hofmann 1999 2 lda blei et al.2003 3 correlated topic model blei and lafferty,2006 ctm主要是為了克服標準lda模型不能建模話題...

Topic Model的分類總結(LDA變種)

topic models主要可以分為四大類 1.無監督無層次結構,主要有 1 plsa hofmann 1999 2 lda blei et al.2003 3 correlated topic model blei and lafferty,2006 ctm主要是為了克服標準lda模型不能建模話題...

topic model之PLSA的簡單理解

plsa probabilistic latent semantic analysis 在文字處理中,我們常常直接根據文字的內容,將document 和term直接關聯分析,比如計算term frequency等。而在topic模型中,我們認為document是有主題topic的,topic才是直接...