「詞頻」(term frequency,縮寫為tf),停用詞:表示對找到結果毫無幫助、必須過濾掉的詞,如」的」、」是」、」在」—-這一類最常用的詞
詞頻詞頻(tf)=某個詞在文章中出現的次數
考慮到文章有長短之分,所以要對詞頻引數進行歸一化處理,下面是兩種歸一化的方法
(1)詞頻(
tf)=
某個詞在
文章中出
現的次數
文章的總
詞數詞 頻(
tf)=
某個詞在
文章中出
現的次數
文章的總
詞數(2)詞頻(
tf)=
某個詞在
文章中出
現的次數
該文出現
次數最多
的詞出現
的次數 詞頻(
tf)=
某個詞在
文章中出
現的次數
該文出現
次數最多
的詞出現
的次數逆文件頻率
即詞的區分度,逆文件概率針對的是整個預料庫中的語料來計算的的逆文
檔頻率(
idf)
=log
語料庫文
檔總數包
含該詞的
文件數+
1 逆文件
頻率(i
df)=
log語
料庫文件
總數包含
該詞的文
檔數+1
注:上式中分母加一避免log1=0的情況
ps:應該也可以用該文章中某詞的數量除以整個語料庫中該詞的總數
tf-idf:
tf-idf=詞頻(tf)* 逆文件頻率(idf)
tf-idf數學含義
– tf:代表性,出現次數越多,代表性越強,tf值越大
– idf:普遍性,在越多的地方出現,普遍性越強,idf值越小(逆)
tf-idf演算法的優點是簡單快速,結果比較符合實際情況。缺點是,單純以」詞頻」衡量乙個詞的重要性,不夠全面,有時重要的詞可能出現次數並不多。而且,這種演算法無法體現詞的位置資訊,出現位置靠前的詞與出現位置靠後的詞,都被視為重要性相同,這是不正確的。(一種解決方法是,對全文的第一段和每一段的第一句話,給予較大的權重。)
余弦相似性:對於兩個向量a b
TF IDF與余弦相似性的應用
原文 這個標題看上去好像很複雜,其實我要談的是乙個很簡單的問題。這個問題涉及到資料探勘 文字處理 資訊檢索等很多計算機前沿領域,但是出乎意料的是,有乙個非常簡單的經典演算法,可以給出令人相當滿意的結果。它簡單到都不需要高等數學,普通人只用10分鐘就可以理解,這就是我今天想要介紹的tf idf演算法。...
TF IDF與余弦相似性的應用
為了找出相似的文章,需要用到 余弦相似性 cosine similiarity 下面,我舉乙個例子來說明,什麼是 余弦相似性 為了簡單起見,我們先從句子著手。句子a 我喜歡看電視,不喜歡看電影。句子b 我不喜歡看電視,也不喜歡看電影。請問怎樣才能計算上面兩句話的相似程度?基本思路是 如果這兩句話的用...
TF IDF與余弦相似性的應用(二) 找出相似文章
為了找出相似的文章,需要用到 余弦相似性 cosine similiarity 下面,我舉乙個例子來說明,什麼是 余弦相似性 為了簡單起見,我們先從句子著手。句子a 我喜歡看電視,不喜歡看電影。句子b 我不喜歡看電視,也不喜歡看電影。請問怎樣才能計算上面兩句話的相似程度?基本思路是 如果這兩句話的用...