生成式模型 LDA

2022-08-22 08:42:12 字數 704 閱讀 8626

lsi-latent semantic indexing.淺語義分析

針對缺點1,lsi(1990)將矩陣x進行奇異值分解,然後只取一部分作為其特徵,此過程其實就相當於對x進行pca降維。將原始的向量轉化到乙個低維的隱含語義空間中,而保留下來的維度(根據奇異值大小決定)所對應的奇異值就對應了每個『隱含語義』的權重,去掉的那些維度就相當於把那些不重要的『隱含語義』的權重賦值為0.

lsi的作者deerwester稱由lsi得到的特徵能夠捕獲一些基本的語義概念,例如同義詞等。個人理解,這是由pca的性質決定的,。

lsi如其名字latent semantic indexing, 旨在在詞頻矩陣x的基礎上找出latent semantic,潛藏的語義資訊。

其缺點是:不能解決多義詞問題;

個人理解:這種方法就像詞包模型一樣,有一定的道理,但沒有明確化,不像概率模型一樣具體化。原文中說『given a generative model of text, however, it isnot clear why one should adopt the lsimethodology』,個人覺得就是說他的理論基礎不夠明白,所以後續推出plsi,就是能夠從數學上,從理論上具有嚴格意義的說明是怎麼回事,到底是為什麼有效,又怎麼得出理論解。

模型的擴充套件性:如何解決長尾資料問題?

lda 協方差矩陣 LDA模型

lda是一種文件主題生成模型,也稱為乙個三層貝葉斯概率模型,包含詞 主題和文件三層結構。作為一種非監督機器學習技術,可以用來識別大規模文件集或語料庫中潛藏的主題資訊。它採用了詞袋的方法,這種方法將每一篇文件視為乙個詞頻向量,從而將文字資訊轉化為了易於建模的數字資訊。但是詞袋方法沒有考慮詞與詞之間的順...

LDA主題模型

先定義一些字母的含義 lda以文件集合d作為輸入 會有切詞,去停用詞,取詞幹等常見的預處理,略去不表 希望訓練出的兩個結果向量 設聚成k個topic,voc中共包含m個詞 lda的核心公式如下 p w d p w t p t d 直觀的看這個公式,就是以topic作為中間層,可以通過當前的 d和 t...

主題模型LDA

某隨機實驗如果有k個可能結局a1 a2 ak,分別將他們的出現次數記為隨機變數x1 x2 xk,它們的概率分布分別是p1,p2,pk,那麼在n次取樣的總結果中,a1出現n1次 a2出現n2次 ak出現nk次的這種事件的出現概率p有下面公式 p x1 n 1,xk nk n n1 nk pn1 1.p...