奇異值與潛在語義索引LSI

2021-07-10 06:19:49 字數 919 閱讀 9777

潛在語義索引(latent semantic indexing)與pca不太一樣,至少不是實現了svd就可以直接用的,不過lsi也是乙個嚴重依賴於svd的演算法,之前吳軍老師在矩陣計算與文字處理中的分類問題中談到:

「三個矩陣有非常清楚的物理含義。第乙個矩陣x中的每一行表示意思相關的一類詞,其中的每個非零元素表示這類詞中每個詞的重要性(或者說相關性),數值越大越相關。最後乙個矩陣y中的每一列表示同一主題一類文章,其中每個元素表示這類文章中每篇文章的相關性。中間的矩陣則表示類詞和文章雷之間的相關性。因此,我們只要對關聯矩陣a進行一次奇異值分解,w 我們就可以同時完成了近義詞分類和文章的分類。(同時得到每類文章和每類詞的相關性)。」

上面這段話可能不太容易理解,不過這就是lsi的精髓內容,我下面舉乙個例子來說明一下,下面的例子來自lsa tutorial,具體的**我將在最後的引用中給出:

繼續看這個矩陣還可以發現一些有意思的東西,首先,左奇異向量的第一列表示每乙個詞的出現頻繁程度,雖然不是線性的,但是可以認為是乙個大概的描述,比如book是0.15對應文件中出現的2次,investing是0.74對應了文件中出現了9次,rich是0.36對應文件中出現了3次;

其次,右奇異向量中一的第一行表示每一篇文件中的出現詞的個數的近似,比如說,t6是0.49,出現了5個詞,t2是0.22,出現了2個詞。

然後我們反過頭來看,我們可以將左奇異向量和右奇異向量都取後2維(之前是3維的矩陣),投影到乙個平面上,可以得到:

文字主題模型之潛在語義索引 LSI

在文字挖掘中,主題模型是比較特殊的一塊,它的思想不同於我們常用的機器學習演算法,因此這裡我們需要專門來總結文字主題模型的演算法。本文關注於潛在語義索引演算法 lsi 的原理。在資料分析中,我們經常會進行非監督學習的聚類演算法,它可以對我們的特徵資料進行非監督的聚類。而主題模型也是非監督的演算法,目的...

隱含語義索引lsi

潛在語義索引 lsi 又稱為潛在語義分析 lsa 是在資訊檢索領域提出來的乙個概念。主要是在解決兩類問題,一類是一詞多義,如 bank 一詞,可以指銀行,也可以指河岸 另一類是一義多詞,即同義詞問題,如 car 和 automobile 具有相同的含義,如果在檢索的過程中,在計算這兩類問題的相似性時...

值語義與物件語義

值語義 value sematics 指的是物件的拷貝與原物件無關,就像拷貝int一樣。c 的內建型別 bool int double char 都是值語義,標準庫里的complex pair vector map string等等型別也都是值語義,拷貝之後就與原物件脫離關係。物件語義 object...