TF IDF與余弦相似性

2021-08-24 17:25:42 字數 1268 閱讀 3815

「詞頻」(term frequency,縮寫為tf),停用詞:表示對找到結果毫無幫助、必須過濾掉的詞,如」的」、」是」、」在」—-這一類最常用的詞

詞頻詞頻(tf)=某個詞在文章中出現的次數

考慮到文章有長短之分,所以要對詞頻引數進行歸一化處理,下面是兩種歸一化的方法

(1)詞頻(

tf)=

某個詞在

文章中出

現的次數

文章的總

詞數詞 頻(

tf)=

某個詞在

文章中出

現的次數

文章的總

詞數(2)詞頻(

tf)=

某個詞在

文章中出

現的次數

該文出現

次數最多

的詞出現

的次數 詞頻(

tf)=

某個詞在

文章中出

現的次數

該文出現

次數最多

的詞出現

的次數逆文件頻率

即詞的區分度,逆文件概率針對的是整個預料庫中的語料來計算的的逆文

檔頻率(

idf)

=log

語料庫文

檔總數包

含該詞的

文件數+

1 逆文件

頻率(i

df)=

log語

料庫文件

總數包含

該詞的文

檔數+1

注:上式中分母加一避免log1=0的情況

ps:應該也可以用該文章中某詞的數量除以整個語料庫中該詞的總數

tf-idf:

tf-idf=詞頻(tf)* 逆文件頻率(idf)

tf-idf數學含義

– tf:代表性,出現次數越多,代表性越強,tf值越大

– idf:普遍性,在越多的地方出現,普遍性越強,idf值越小(逆)

tf-idf演算法的優點是簡單快速,結果比較符合實際情況。缺點是,單純以」詞頻」衡量乙個詞的重要性,不夠全面,有時重要的詞可能出現次數並不多。而且,這種演算法無法體現詞的位置資訊,出現位置靠前的詞與出現位置靠後的詞,都被視為重要性相同,這是不正確的。(一種解決方法是,對全文的第一段和每一段的第一句話,給予較大的權重。)

余弦相似性:對於兩個向量a b

TF IDF與余弦相似性的應用

原文 這個標題看上去好像很複雜,其實我要談的是乙個很簡單的問題。這個問題涉及到資料探勘 文字處理 資訊檢索等很多計算機前沿領域,但是出乎意料的是,有乙個非常簡單的經典演算法,可以給出令人相當滿意的結果。它簡單到都不需要高等數學,普通人只用10分鐘就可以理解,這就是我今天想要介紹的tf idf演算法。...

TF IDF與余弦相似性的應用

為了找出相似的文章,需要用到 余弦相似性 cosine similiarity 下面,我舉乙個例子來說明,什麼是 余弦相似性 為了簡單起見,我們先從句子著手。句子a 我喜歡看電視,不喜歡看電影。句子b 我不喜歡看電視,也不喜歡看電影。請問怎樣才能計算上面兩句話的相似程度?基本思路是 如果這兩句話的用...

TF IDF與余弦相似性的應用(二) 找出相似文章

為了找出相似的文章,需要用到 余弦相似性 cosine similiarity 下面,我舉乙個例子來說明,什麼是 余弦相似性 為了簡單起見,我們先從句子著手。句子a 我喜歡看電視,不喜歡看電影。句子b 我不喜歡看電視,也不喜歡看電影。請問怎樣才能計算上面兩句話的相似程度?基本思路是 如果這兩句話的用...