機器學習之LDA主題模型演算法

2021-08-28 15:24:21 字數 2115 閱讀 1240

2、知道beta分布和dirichlet分布數學含義

3、了解共軛先驗分布

4、知道先驗概率和後驗概率

5、知道引數α值的大小對應的含義

6、掌握lda主題模型的生成過程

7、知道超引數α等值的參考值

8、lda總結

知道lda說的降維代表什麼含義:將一篇分詞後的文章降維為乙個主題分布(即如20個特徵向量主題)。

根據對應的特徵向量中的相關主題概率(20個主題的概率相加為1即為主題分布)得到對應的文件主題,屬於無監督學習(你沒有給每個資料打標籤)

資訊提取與搜尋(語義分析),文件的分、聚類,文章摘要,計算機視覺,生物資訊等方向(只要包含隱變數都可考慮使用)

ps:知道樸素貝葉斯在文字分析的劣勢:無法識別一詞多義和多詞一意。

beta分布概率密度表示式是一條曲線,係數b的表示式是曲線下的面積。

知道二項分布的共軛先驗分布是beta分布,多項分布的共軛先驗分布是dirichlet分布。

知道dirichlet分布的概率密度函式的數學含義:當k=3時,密度函式數學含義也就是乙個曲面

含義:找個乙個先驗分布和後驗分布都滿足於同一種分布的概率分布。這樣你知道其中的乙個分布就代表知道了另外乙個分布。

**先驗概率:**是指根據以往經驗和分析得到的概率.

**後驗概率:**事情已經發生,要求這件事情發生的原因是由某個因素引起的可能性的大小

當α小於1的時候代表取某乙個值的概率很高(即某一主題的概率很高即主題鮮明),=1的時候代表概率為均勻分布,大於1的時候代表k個p相同的概率增大。

對應的z軸就代表這個點對應的概率

總結一句話:主題概率模型生成乙個主題分布再生成乙個主題,詞概率模型生成主題的詞分布再生成乙個詞;最終得到乙個主題對應這個詞。(連線的條件主題的標號)

掌握整個過程:

θ代表的乙個主題分布,即k維的主題向量。

從α控制的dirichlet分布的概率密度函式中採取乙個對應的k維的主題分布即θm(第m篇文件的主題)

從β控制的dirichlet分布的概率密度函式中生成k個對應的v維的詞分布即φk

zm,n即代表第m個文件的第n個主題。當n=2時即代表採到第m篇文件的第二個主題,就到對應的β生成的第二個主題的詞分布即φk(對應的第幾個主題的詞分布)

從φk中隨機挑選乙個詞作為wm,n的值(即第m篇文件第n個主題對應的詞)

迴圈執行上述步驟得到每個主題對應的詞

ps:各個引數的含義

θm代表第m篇文件的主題分布(m為文件總數)

φk表示第k個主題的詞分布(k為主題的個數)

zm,n代表第m篇文件中的第n個主題

wm,n代表第m篇文件中的第n個單詞

LDA主題模型

先定義一些字母的含義 lda以文件集合d作為輸入 會有切詞,去停用詞,取詞幹等常見的預處理,略去不表 希望訓練出的兩個結果向量 設聚成k個topic,voc中共包含m個詞 lda的核心公式如下 p w d p w t p t d 直觀的看這個公式,就是以topic作為中間層,可以通過當前的 d和 t...

主題模型LDA

某隨機實驗如果有k個可能結局a1 a2 ak,分別將他們的出現次數記為隨機變數x1 x2 xk,它們的概率分布分別是p1,p2,pk,那麼在n次取樣的總結果中,a1出現n1次 a2出現n2次 ak出現nk次的這種事件的出現概率p有下面公式 p x1 n 1,xk nk n n1 nk pn1 1.p...

LDA主題模型

最近看了一下lda的文章,寫個小結,理解正確與否有待驗證.latent dirichlet allocation lda 是三層的層次概率貝葉斯模型 生成模型 用於處理離散資料,比如文字資料.假設一共有 v 個單詞,則第 j 個單詞表示為 w 0,cdots,0,1,0,cdots,0 text 假...