主題模型LDA

2021-08-07 14:22:00 字數 2588 閱讀 2663

某隨機實驗如果有k個可能結局a1、a2、…、ak,分別將他們的出現次數記為隨機變數x1、x2、…、xk,它們的概率分布分別是p1,p2,…,pk,那麼在n次取樣的總結果中,a1出現n1次、a2出現n2次、…、ak出現nk次的這種事件的出現概率p有下面公式: p(

x1=n

1,..

.,xk

=nk)

={n!

n1!.

..nk

!pn1

1...

pnkk

0,∑k

i=1n

i=n;

,otherwise

另一種形式寫為: p(

x1=n

1,..

.,xk

=nk)

=⎧⎩⎨

⎪⎪n!

∏i=1

kpni

ini!

0,∑k

i=1n

i=n;

,otherwise

多項分布可以看作時候二項分布推廣到多維的形式

dirichlet distribution就是由2種結果bernoulli trial匯出的beta distribution外推到k種的generalization

k階段狄利克雷分布的概率密度函式如下: f(

x1,.

..,x

k;a1

,...

,ak)

=1b(

a→)∏

kk=1

pak−

1k,p

k∈[0

,1]

簡記為 di

r(p→

|a→)

=1b(

a→)∏

kk=1

pak−

1k,其中 b(

a→)=

∏k=1

kγ(a

k)γ(

∑k=1

kak)

期望 e(

pi)=

ai∑k

=1ka

k 協方差 co

v(pi

,pj)

=aia

0[i=

j]−a

iaja

20(a

0+1)

a0=∑kk=

1ak

在對稱狄利克雷分布中所有ai

的取值相同,所以分布可以由唯一的ak

和階數k確定。 di

r(p→

|a,k

)=1b

k(a)

∏k=1

kpa−

1k其中 bk

(a)=

γk(a

k)γ(

k⋅a)

對稱狄利克雷分布性質

模擬於二項分布的共軛先驗是be

ta分布,多項分布的共軛先驗是狄利克雷分布。

假設引數x=

(x1,

x2,.

..,x

k)有先驗分布di

r(k,

a1,.

..,a

k),即 p(

x;a1

,...

,ak)

=1b(

a)∏i

=1kx

ai−1

i 另有似然函式 p(

y|x)

∼mul

ti(x

) 則後驗概率 p(

x|y)

∼1z∏

i=1k

xai+

ni−1

i 與dirichlet分布形式一致。

主題模型是一族生成式有向圖模型,主要用於處理離散型的資料(如文字集合)。lda是主題模型的典型代表。

詞word是待處理資料的基本離散單元。

文件document是待處理的資料物件,由一組詞組成,這些詞在文件是不計順序的。

話題topic表示乙個概念,表示為一系列相關的詞,以及它們在該概念下出現的概率。

對於一篇特定的文件d,如何計算p(

xdn=

i|β,

θd) ?

通過將話題的簇分配積分得到。 p(

xdn=

i|β,

θ)=∑

k=1k

p(xd

n=i,

cdn=

k|β,

θd)=

∑k=1

kp(x

dn=i

|β,c

dn=k

)p(c

dn=k

|θd)

=∑k=

1kβk

i⋅θd

k 現在令b=[

β1,.

..,β

k] ,θ

=[θ1

,...

,θd]

,則p(x

dn=i

|β,θ

)=(b

θ)id

換句話說,我們可以通過乙個由兩個含有非負項的矩陣相乘得到的矩陣得到。

LDA主題模型

先定義一些字母的含義 lda以文件集合d作為輸入 會有切詞,去停用詞,取詞幹等常見的預處理,略去不表 希望訓練出的兩個結果向量 設聚成k個topic,voc中共包含m個詞 lda的核心公式如下 p w d p w t p t d 直觀的看這個公式,就是以topic作為中間層,可以通過當前的 d和 t...

LDA主題模型

最近看了一下lda的文章,寫個小結,理解正確與否有待驗證.latent dirichlet allocation lda 是三層的層次概率貝葉斯模型 生成模型 用於處理離散資料,比如文字資料.假設一共有 v 個單詞,則第 j 個單詞表示為 w 0,cdots,0,1,0,cdots,0 text 假...

LDA與主題模型

1 最近看的東西。於是,這樣就可以對文件進行分類。一篇文件可以由主題的分布來構成,就是說,包含百分之多少的這個主題,百分之多少的那個主題。不同的文章,包含的主題成分不同,這個分布是不同的的,有些文章這個分布可能是相同 相似的。把所有文章都統計一遍,有多少是屬於這個分布的,多少是屬於那個分布的,統計出...