機器學習 主題模型 LSA

2021-07-12 05:15:35 字數 921 閱讀 9054

上圖是乙個term-document矩陣,x代表該單詞出現在對應的檔案裡,星號表示該詞出現在查詢(query)中,當使用者輸入查詢」idf in computer-based information look up」 時,使用者是希望查詢與資訊檢索中idf(文件頻率)相關的網頁,按照精確詞匹配的話,文件2和3分別包含查詢中的兩個詞,因此應該被返回,而文件1不包含任何查詢中的詞,因此不會被返回。但我們仔細看看會發現,文件1中的access, retrieval, indexing, database這些詞都是和查詢相似度十分高的,其中retrieval和look up是同義詞。顯然,從使用者的角度看,文件1應該是相關文件,應該被返回。再來看文件2:computer information theory,雖然包含查詢中的一次詞information,但文件2和idf或資訊檢索無關,不是使用者需要的文件,不應該被返回。從以上分析可以看出,在本次檢索中,和查詢相關的文件1並未返回給使用者,而無查詢無關的文件2卻返回給了使用者。這就是同義詞和多義詞如何導致傳統向量空間模型檢索精確度的下降。

@@@indexin by latent semantic analysis (1990;sccto deerwesrer)

* lsa將詞和文件對映到潛在語義空間,從而去除了原始向量空間中的一些「噪音」,提高了資訊檢索的精確度。lsa的基本思想就是把高維的文件降到低維空間,那個空間被稱為潛在語義空間。

* 降維是lsa分析中最重要的一步,通過降維,去除了文件中的「噪音」,也就是無關資訊(比如詞的誤用或不相關的詞偶爾出現在一起),語義結構逐漸呈現。相比傳統向量空間,潛在語義空間的維度更小,語義關係更明確。

儘管基於svd的lsa取得了一定的成功,但是其缺乏嚴謹的數理統計基礎,而且svd分解非常耗時。

lsa對一詞多義問題依然沒有解決,僅僅解決了一義多詞。因為lsa將每乙個詞表示為潛在語義空間中的乙個點,因此乙個詞的多個意義在空間中對於的是乙個點,沒有被區分。

機器學習之LDA主題模型演算法

2 知道beta分布和dirichlet分布數學含義 3 了解共軛先驗分布 4 知道先驗概率和後驗概率 5 知道引數 值的大小對應的含義 6 掌握lda主題模型的生成過程 7 知道超引數 等值的參考值 8 lda總結 知道lda說的降維代表什麼含義 將一篇分詞後的文章降維為乙個主題分布 即如20個特...

機器學習 主題模型(二) pLSA和LDA

plsa概率潛在語義分析 lda潛在狄瑞雷克模型 plsa 有過擬合問題,就是求d,z,w plsa由lsa發展過來,而早期lsa的實現主要是通過svd分解。plsa的模型圖如下 公式中的意義如下 具體可以參考2010龍星計畫 機器學習中對應的主題模型那一講 在 googlenews persona...

機器學習 潛在語義分析LSA和PLSA

3.plsa 基於概率的lsa 在自然語言處理nlp領域中,詞袋模型 bag of words,bow 是經典的模型之一。它考慮所有的詞彙都裝在乙個袋子中,任何一篇文件中的單詞都可以用袋子中的詞彙來描述。如果有10萬個詞彙,那麼每篇文件都可以表示為乙個10萬維的向量。得到文件向量之後,我們通過可以通...