LDA(主題模型)簡介

2021-08-07 13:21:55 字數 608 閱讀 5367

lda(latent dirichlet allocation)是一種文件主題生成模型。lda的作用是判斷兩個文件的相似度,傳統的方法使用詞共現來判斷,例如tf-idf等,但這種方法未考慮文件的語義結構。lda模型根據文件中的主題分布來判斷文件的相似度。給定乙個文件,首先分析出文件中包含哪些主題,然後判斷不同文件中各個主題出現的概率大小。

例如下面兩句話:

「賈伯斯離我們而去了。」

「蘋果**會不會降?」

使用詞共現方法無法判斷這兩句話相似,但是lda模型可以根據主題詞判斷出這兩 句話是否相似。

其中主題模型的主題是一系列相似度較高的單詞(使用條件概率來表示),這些單詞代表同乙個主題。

首先,可以用生成模型來看文件和主題這兩件事。所謂生成模型,我們認為一篇文章的每個詞都是通過「文件以一定概率選擇了某個主題,然後從這個主題中以一定概率選擇某個詞語」這樣乙個過程得到的。也就是說,每篇文件先生成主題,根據主題再生成詞語。那麼,如果我們要生成一篇文件,它裡面的每個詞語出現的概率為:

給定一系列文件,通過對文件進行分詞,計算各個文件中每個單詞的詞頻就可以得到左邊的」文件-詞語」概率。主題模型就是通過左邊的」文件-詞語」概率進行訓練,學習出右邊兩個概率。

詳細的數學推導:

LDA主題模型簡介

d.m.blei在2003年 準確地說應該是2002年 提出的lda latent dirichlet allocation 模型 翻譯成中文就是 潛在狄利克雷分配模型 讓主題模型火了起來,今年3月份我居然還發現了乙個專門的lda的r軟體包 7月份有更新 可見主題模型方興未艾呀。主題模型是一種語言模...

LDA主題模型

先定義一些字母的含義 lda以文件集合d作為輸入 會有切詞,去停用詞,取詞幹等常見的預處理,略去不表 希望訓練出的兩個結果向量 設聚成k個topic,voc中共包含m個詞 lda的核心公式如下 p w d p w t p t d 直觀的看這個公式,就是以topic作為中間層,可以通過當前的 d和 t...

主題模型LDA

某隨機實驗如果有k個可能結局a1 a2 ak,分別將他們的出現次數記為隨機變數x1 x2 xk,它們的概率分布分別是p1,p2,pk,那麼在n次取樣的總結果中,a1出現n1次 a2出現n2次 ak出現nk次的這種事件的出現概率p有下面公式 p x1 n 1,xk nk n n1 nk pn1 1.p...