LDA文字建模

2021-06-27 21:30:41 字數 277 閱讀 5011

我們日常生活中會產生大量的文字,如果每乙個文字儲存為乙個文件,那每篇文件從人的觀察來說就是有序的詞的序列。

統計文字建模的目的就是追問這些觀察到語料庫中的詞序列是如何生成的。

我們將上述統計學問題看成上帝拋擲骰子生成的。那麼出現兩個核心的問題:

1.上帝都有什麼樣的骰子。即表示模型中都有哪些引數,骰子的每一面的概率都對應於模型中的引數。

2.上帝是如何拋擲這些骰子的。即表示遊戲規則是什麼,上帝會有不同型別的骰子,會按照乙個什麼樣的方式來拋擲骰子產生詞序列

lda如下

用LDA處理文字 Python

一 lda介紹 lda latent dirichlet allocation 是一種文件主題生成模型,也稱為乙個三層貝葉斯概率模型,包含詞 主題和文件三層結構。所謂生成模型,就是說,我們認為一篇文章的每個詞都是通過 以一定概率選擇了某個主題,並從這個主題中以一定概率選擇某個詞語 這樣乙個過程得到。...

用LDA處理文字 Python

一 lda介紹 lda latent dirichlet allocation 是一種文件主題生成模型,也稱為乙個三層貝葉斯概率模型,包含詞 主題和文件三層結構。所謂生成模型,就是說,我們認為一篇文章的每個詞都是通過 以一定概率選擇了某個主題,並從這個主題中以一定概率選擇某個詞語 這樣乙個過程得到。...

LDA在短文本(twiter)應用

參考文獻 empirical study of topic modeling in twitter.這個文章考察了lda在twitter中的應用,用的是最原始的lda,關鍵點在於如何融合出合適的維度的訓練集合,以及不同方式訓練出的lda的效果 訓練集合的融合策略有 1.直接單條twit 2.同use...