潛在語義分析(latent semantic analysis,lsa)是一種無監督學習方法,主要用於文字的話題分析,其特點是通過矩陣分解發現文字與單詞之間的基於話題的語義關係。潛在語義分析由deerwester 2023年提出,最初應用於文字資訊檢索,所以也被稱為潛在語義索引(latent semantic indexing,lsi),在推薦系統、影象處理、生物資訊等領域也有廣泛應用。
文字資訊處理中,傳統的方法以單詞向量表示文字的語義內容,以單詞向量空間的度量表示文字之間的語義相似度。潛在語義分析旨在解決這種方法不能準確表示語義的問題,試圖從大量的文字資料中發現潛在的話題,以話題向量表示文字的語義內容,以話題向量空間的度量更準確地表示文字之間的語義相似度。這也是話題分析(topic modeling)的基本想法。
潛在語義分析使用的是非概率的話題分析模型。具體地,將文字集合表示為單詞-文字矩陣,對單詞-文字矩陣進行奇異值分解,從而得到話題向量空間,以及文字在話題向量空間的表示。
非負矩陣分解(non-negative matrix factorization,nmf)是另一種矩陣的因子分解方法。其特點是分解的矩陣非負。非負矩陣分解也可用於話題分析。
潛在語義分析LSA
lsa和傳統向量空間模型 vector space model 一樣使用向量來表示詞 terms 和文件 documents 並通過向量間的關係 如夾角 來判斷詞及文件間的關係 不同的是,lsa 將詞和文件對映到潛在語義空間,從而去除了原始向量空間中的一些 噪音 提高了資訊檢索的精確度。1 一詞多義...
機器學習 潛在語義分析LSA和PLSA
3.plsa 基於概率的lsa 在自然語言處理nlp領域中,詞袋模型 bag of words,bow 是經典的模型之一。它考慮所有的詞彙都裝在乙個袋子中,任何一篇文件中的單詞都可以用袋子中的詞彙來描述。如果有10萬個詞彙,那麼每篇文件都可以表示為乙個10萬維的向量。得到文件向量之後,我們通過可以通...
潛在語義分析對認知科學的啟示
潛在語義分析技術對認知科學以及虛擬實境系統的設計也具有啟示 首先,由於lsa 可以用數學方法實現對文字的理解,所以可採用lsa 分析人對文字的理解。認知領域中,文字理解研究的主要目標是發現影響讀者由文字材料提取資訊和保留資訊的能力的諸多因素。通常採用讓被試者閱讀材料,然後讓他們回答問題或寫一篇進行總...