Lucene原始碼二文字相似度TF IDF原理

lucene中tf-idf的計算公式與普通的tf-idf不一樣。學習之後，感覺lucene的計算方法更加合理，考慮得更加周全。

q：query，即搜尋內容，例如：github

d：document，即文件內容，例如：i like github

即我們的搜尋內容"github"跟文件內容"i like github"的tf-idf值（相似度）。tf-idf值越高，搜尋的內容與文件的匹配度越高。

t：term，對query進行分詞之後的單詞

tf：文件**現單詞t的頻次

numdocs：總的文件數量

docfreq：含有單詞t的文件數量

t.getboost()：單詞t的權重，即單詞t的重要性

norm(t,d)：文件長度加權因子，它的作用就是提高短文件的分數，降低長文件的分數。

f.boost()：索引欄位f的權重即重要性

coord(q, d)：搜尋內容query分詞之後有n個單詞，文件**現了n個單詞中的m個，那麼coord(q, d) = m / n

querynorm：歸一化因子，讓不同的query的if-idf分數可以進行比較。

q.getboost()：與上面的同理，當前query的重要性/權重

文字相似度

這種相似度計算方式相對簡單，原理也易於理解，就是計算單詞集合之間的交集和並集大小的比例，該值越大，表示兩個文字越相似。在涉及到大規模平行計算時，該方法效率上有一定的優勢。jaccard 相似度公式舉例句子a 我喜歡看電視，不喜歡看電影。句子b 我不喜歡看電視，也不喜歡看電影。分詞去噪後 a 我，...

計算文字相似度文字相似度演算法之 simhash

文字相似度演算法種類繁多，今天先介紹一種常見的網頁去重演算法simhash。1 什麼是simhash 2 simhash步驟人工智慧，1 大資料，2 科技，3 網際網路，4 機器學習，5 人工智慧 00101 大資料 11001 科技 00110 網際網路 10101 機器學習 01011 has...

計算文字相似度

計算文字相似度推薦2收藏簡單講解文字相似度計算在資訊檢索資料探勘機器翻譯文件複製檢測等領域有著廣泛的應用。比如控制，我們假設你開發了乙個微博並且已經把世界上罵人的句子都已經收錄進了資料庫，那麼當乙個使用者發微博時會先跟罵人句子的資料庫進行比較，如果符合裡面的句子就不讓使用者發出。通常...

Lucene原始碼 二 文字相似度TF IDF原理

文字相似度

計算文字相似度 文字相似度演算法之 simhash

計算文字相似度

相關推薦

Lucene原始碼二文字相似度TF IDF原理

計算文字相似度文字相似度演算法之 simhash