主題(話題)模型LSA PLSA LDA簡述

2021-10-21 20:56:56 字數 1830 閱讀 3651

假設你每寫一篇文件會製作一顆k面的「文件-主題」骰子(扔此骰子能得到k個主題中的任意乙個),和k個v面的「主題-詞項」 骰子。

比如可令k=3,即製作1個含有3個主題的「文件-主題」骰子,這3個主題可以是:教育、經濟、交通。然後令v = 3,製作3個有著3面的「主題-詞項」骰子,其中,教育主題骰子的3個面上的詞可以是:大學、老師、課程,經濟主題骰子的3個面上的詞可以是:市場、企業、金融,交通主題骰子的3個面上的詞可以是:高鐵、汽車、飛機。

對於每乙個詞,先扔該「文件-主題」骰子選擇主題,得到主題的結果後,使用和主題結果對應的那顆「主題-詞項」骰子,扔該骰子選擇要寫的詞。重複這一過程 n 次即生成一篇文件。

以概率p(d

i)

p(d_i)

p(di​)

從語料中隨機選擇一篇文件d

id_i

di​;

選定文件後,從主題分布中按照p(z

k∣di

)p(z_k|d_i)

p(zk​∣

di​)

選擇乙個主題z

kz_k

zk​;

選定主題後,從詞分布中按照概率p(w

j∣zk

)p(w_j|z_k)

p(wj​∣

zk​)

選擇乙個詞w

jw_j

wj​。

以概率p(d

i)

p(d_i)

p(di​)

選擇一篇文件d

id_i

di​;

以 α

\alpha

α引數的狄利克雷分布生成d

id_i

di​的主題分布θ

i\theta_i

θi​;

從主題的多項式分布θ

i\theta_i

θi​取樣生成文件第j個詞對應的主題zij

z_zi

j​;以β

\beta

β引數的狄利克雷分布生成主題zij

z_zi

j​對應的詞分布ϕzi

j\phi_}

ϕzij​​

;從詞語的多項式分布ϕzi

j\phi_}

ϕzij​​

中取樣最終生成詞語wij

w_wi

j​。

無監督學習演算法,在訓練時不需要手工標註的訓練集,需要的僅僅是文件集以及指定主題的數量k即可。

使用稀疏的狄利克雷分布來建模文件關於主題的概率分布、主題關於詞的概率分布,符合人類的先驗知識,因為一篇文件的主題往往集中在特定少數幾個主題上,同理乙個主題的表示也主要集中少數詞語上,多數情況是少部分(跟這個話題高度相關的)詞出現的頻率會很高,而其他的詞出現的頻率則明顯較低。

plsa給定乙個文件,其主題概率分布p(z

∣di)

p(z|d_i)

p(z∣di

​)是唯一確定的,同理給定乙個主題,其詞概率分布p(w

∣z

)p(w|z)

p(w∣z)

是唯一確定的。最終用em演算法(極大似然估計思想)求解出了兩個未知但固定的引數的值p(w

j∣zk

)p(w_j|z_k)

p(wj​∣

zk​)

和p (z

k∣di

)p(z_k|d_i)

p(zk​∣

di​)

,是頻率派的思想。

lda中文件的主題概率分布、主題的詞概率分布都是由狄利克雷分布隨機生成的,是貝葉斯派的思想。lda求解引數可以變分推斷-em演算法和吉布斯取樣估計。前者使用最大後驗概率map估計,後者使用貝葉斯估計。

話題模型分類

topic model 是一種應用十分廣泛的產生式模型 generative model 在ir,nlp,ml都有廣泛的應用,本文將對目前已有的topic model進行分類總結,然後選擇幾個代表性的topic model進行較為詳細的介紹,從而理解topic model 的思想,以及怎麼應用。to...

LDA主題模型

先定義一些字母的含義 lda以文件集合d作為輸入 會有切詞,去停用詞,取詞幹等常見的預處理,略去不表 希望訓練出的兩個結果向量 設聚成k個topic,voc中共包含m個詞 lda的核心公式如下 p w d p w t p t d 直觀的看這個公式,就是以topic作為中間層,可以通過當前的 d和 t...

主題模型LDA

某隨機實驗如果有k個可能結局a1 a2 ak,分別將他們的出現次數記為隨機變數x1 x2 xk,它們的概率分布分別是p1,p2,pk,那麼在n次取樣的總結果中,a1出現n1次 a2出現n2次 ak出現nk次的這種事件的出現概率p有下面公式 p x1 n 1,xk nk n n1 nk pn1 1.p...