話題模型(topic model)的提出及發展歷史

2021-06-17 19:33:48 字數 2038 閱讀 7626

topic model 是一種應用十分廣泛的產生式模型(generative model),在ir, nlp,ml都有廣泛的應用,本文將對目前已有的topic model進行分類總結,然後選擇幾個代表性的topic model進行較為詳細的介紹,從而理解topic model 的思想,以及怎麼應用。

topic model最經典的模型之一是lda(latent dirichlet allocation) ,其它的topic model大都充分利用了lda的思想去設計,所以下面先簡單地描述一下其生成乙個文件集合過程:

topic model (lda)認為乙個離散資料集合(如文件集合,集合,為行文方便,本文統統以文件集合作為描述物件,其他的資料集合只需換掉對應的術語即可)是由隱含在資料集合背後的topic set 生成的,這個set中的每乙個topic都是詞的概率分布。對於文件中的每一篇文件,先抽取乙個topics proportion \theta;然後對於這個文件中的每乙個詞的位置 w_i, lda 先從\theta中選擇乙個topic,然後再從這個topic對應的詞分布中選擇乙個詞去填充;按照上述步驟直到整個文件集合產生完畢。

下面我會把目前出現的topic models進行分門別類,小結。

我認為topic models主要可以分為四大類:1)無監督的、無層次結構的topic model;2)無監督的、層次結構的topic model;3)有監督的、無層次結構的topic model;4)有監督的、層次結構的topic model。

對於1)主要有: plsa, lda, correlated topic model, pam,concept topic model等

對於2)主要有: hlda, hdp,hpam等

對於3)主要有: s-lda, disc-lda, mm-lda, author-model, labeled lda, plda 等等

對於4)主要有: hllda, hslda

以上模型對應的文章名字,用google直接搜尋即可得到,這裡就不列出。

下面對於每一類topic model,我都選擇乙個模型來進行介紹:

對於1)上述已經介紹了lda,所以就不介紹這類模型了;

對於2)我想介紹hlda(hierarchical latent dirichlet allocation) 模型

由於lda產生出來的topic都是孤立的,topic之間沒有關係,hlda模型在lda的基礎上,試圖建立topic之間的層次關係,同時考慮到lda需要指定topic的數量作為引數,如果能自動決定topic的數量就比較理想了。為了自動發現決定topic的數量,hlda用chinese restaurant  process去自動決定每一層的topic數量,然而需要指定topic層次的高度h(也就是有多少層的topic),同時它訓練出來的層次結構是等高的,都是h這麼高。至於怎麼產生文件的每個詞,這個和lda都是一樣的。

對於3) 

我想介紹labeled lda (labeled latent dirichlet allocation) 模型

這個模型最大的好處是能夠訓練出來帶標籤的topic,因為在以前的topic model訓練出來的topic都是分布,怎麼賦予乙個標籤給這些topic則是很難的乙個問題。

labeled lda與lda最大的不同是: lda是在所有topics上為某乙個詞進行選擇某個topic,而labeled lda則是只從文件相關的label對應的topic中去選擇,其餘和lda都是一樣的。

對於4)我想介紹hllda (hierarchical labeled latent dirichlet allocation)模型

這個模型最大的好處就是在labeled latent dirichlet allocation模型的基礎上擴充套件到層次結構,其思想也是很簡單的,認為乙個文件只是由這個文件對應的層次label所產生,具體學習和推斷的時候幾乎和labeled latent dirichlet allocation模型一樣。

這些模型相對來說都是較為容易理解的,關鍵是要先理解lda,包括數學公式的推導,如果lda能弄得比較清楚,其它的模型就會非常的容易理解。

話題模型分類

topic model 是一種應用十分廣泛的產生式模型 generative model 在ir,nlp,ml都有廣泛的應用,本文將對目前已有的topic model進行分類總結,然後選擇幾個代表性的topic model進行較為詳細的介紹,從而理解topic model 的思想,以及怎麼應用。to...

主題(話題)模型LSA PLSA LDA簡述

假設你每寫一篇文件會製作一顆k面的 文件 主題 骰子 扔此骰子能得到k個主題中的任意乙個 和k個v面的 主題 詞項 骰子。比如可令k 3,即製作1個含有3個主題的 文件 主題 骰子,這3個主題可以是 教育 經濟 交通。然後令v 3,製作3個有著3面的 主題 詞項 骰子,其中,教育主題骰子的3個面上的...

Topic Model的分類總結(LDA變種)

topic models主要可以分為四大類 1.無監督無層次結構,主要有 1 plsa hofmann 1999 2 lda blei et al.2003 3 correlated topic model blei and lafferty,2006 ctm主要是為了克服標準lda模型不能建模話題...