LDA解決的問題

2021-09-07 12:37:14 字數 888 閱讀 8430

人類是怎麼生成文件的呢?lda的這三位作者在原始**中給了乙個簡單的例子。比如假設事先給定了這幾個主題:arts、budgets、children、education,然後通過學習訓練,獲取每個主題topic對應的詞語。如下圖所示:

而當我們看到一篇文章後,往往喜歡推測這篇文章是如何生成的,我們可能會認為作者先確定這篇文章的幾個主題,然後圍繞這幾個主題遣詞造句,表達成文。

lda就是要幹這事:根據給定的一篇文件,推測其主題分布

通俗來說,可以假定認為人類是根據上述文件生成過程寫成了各種各樣的文章,現在某小撮人想讓計算機利用lda幹一件事:你計算機給我推測分析網路上各篇文章分別都寫了些啥主題,且各篇文章中各個主題出現的概率大小(主題分布)是啥

然,就是這麼乙個看似普通的lda,一度嚇退了不少想深入**其內部原理的初學者。難在哪呢,難就難在lda內部涉及到的數學知識點太多了。

在lda模型中,一篇文件生成的方式如下:

其中,類似beta分布是二項式分布的共軛先驗概率分布,而狄利克雷分布(dirichlet分布)是多項式分布的共軛先驗概率分布。

此外,lda的圖模型結構如下圖所示:

lda模型的python實現

偽 輸入 文章集合 分詞處理後 k 類的個數 輸出 已經隨機分派了一次的lda模型 begin 申請幾個統計量 p 概率向量 維度 k nwsum 每個類上的詞的總數 維度 k phi 類 詞的概率分布 維度 k m 初始化隨機分配類 for x in 統計ndsum 文章id 詞的個數 for y...

PCA和LDA的對比

pca和lda都是經典的降維演算法。pca是無監督的,也就是訓練樣本不需要標籤 lda是有監督的,也就是訓練樣本需要標籤。pca是去除掉原始資料中冗餘的維度,而lda是尋找乙個維度,使得原始資料在該維度上投影後不同類別的資料盡可能分離開來。pca是一種正交投影,它的思想是使得原始資料在投影子空間的各...

Topic Model的分類總結(LDA變種)

topic models主要可以分為四大類 1.無監督無層次結構,主要有 1 plsa hofmann 1999 2 lda blei et al.2003 3 correlated topic model blei and lafferty,2006 ctm主要是為了克服標準lda模型不能建模話題...