文字表示 向量空間模型

2021-08-09 05:17:40 字數 854 閱讀 6952

概念:文字挖掘演算法不能直接在原始文字形式上處理。因此,在預處理階段,將文字轉化為更易計算機識別的資訊,即對文字進行形式化處理。

模型:向量空間模型;概率模型;概念模型;

向量空間模型

1、主要步驟

(1)將文字的基本語言單位(字、詞、片語、短語)抽取,組成特徵項,用tn表示

(2)將tn按在文字中的重要性給出權重wn

(3)將文字抽象為(t1,w1,t2,w2,……,tn,wn)簡化為(w1,w2,……,wn)即為文字的向量 空間模型。

2、權值wn計算

(1)布林權值:wn可取值1/0表示該特徵是否在文字中出現。

(2)詞頻權值:wn用特徵在文件中出現的頻數表示

(3)tf/idf權值:公式有兩種,一種考慮文字資訊量,另一種不考慮。下面舉不考慮資訊量的例子。

有很多不同的數學公式可以用來計算tf-idf。這邊的例子以上述的

數學公式

來計算。詞頻 (tf) 是一詞語出現的次數除以該檔案的總詞語數。假如一篇檔案的總詞語數是100個,而詞語「母牛」出現了3次,那麼「母牛」一詞在該檔案中的詞頻就是3/100=0.03。乙個計算檔案頻率 (idf) 的方法是測定有多少份檔案出現過「母牛」一詞,然後除以檔案集裡包含的檔案總數。所以,如果「母牛」一詞在1,000份檔案出現過,而檔案總數是10,000,000份的話,其逆向檔案頻率就是 log(10,000,000 / 1,000)=4。最後的tf-idf的分數為0.03 * 4=0.12。

考慮詞長公式及註解:

詞頻為頻率[0,1]

,頻數為次數,大於等於0.位址

向量空間模型

向量空間模型 vsm vector space model 是最常用的相似度計算模型,在自然語言處理中有著廣泛的應用,這裡簡單介紹一下其在進行文件間相似度計算時的原理。假設共有十個詞 w1,w2,w10,而共有三篇文章,d1,d2和d3。統計所得的詞頻表 杜撰的,為了便於演示用法 如下 w1 w2 ...

向量空間模型

tft d,意為詞項t在文件d中出現的次數。這種忽略詞項在文件中的次序關係,將文件看作詞項的集合的模型,稱為詞袋模型 bag of words model 使用詞項頻率作為權重有乙個嚴重缺陷,它無區別地對每乙個詞項計算權重,而事實上,文件中兩個詞頻相同的詞極有可能具有不一樣的重要性 亦即權重 例如,...

文字表示模型

具體來說,就是將整段文字以詞為單位切分開,然後每篇文章可以表示成乙個長向量,向量中的每一維表示乙個單詞,而該維對應的權重則反應了這個詞在原文章中的重要程度.常用tf idf計算權重,公式為 t f idf t,d tf t,d idf t tf idf t,d tf t,d idf t tf idf...