計算文字相似度文字相似度演算法之 simhash

文字相似度演算法種類繁多，今天先介紹一種常見的網頁去重演算法simhash。

1、什麼是simhash

2、simhash步驟

（人工智慧，1）、（大資料，2）、（科技，3）、（網際網路，4）、（機器學習，5）

人工智慧：00101

大資料：11001

科技：00110

網際網路：10101

機器學習：01011

hash的方法後邊會再寫文章著重介紹，這裡可以先理解為將詞轉化為二進位制就可以了。

4、針對每乙個hash後的詞，相應位置是1的，權重w取正，相應位置是0的，權重w取負，及變為：

人工智慧：00101 ---> [-1,-1,1,-1,1]

大資料：11001 ---> [2,2,-2,-2,2]

科技：00110 ---> [-3,-3,3,3,-3]

網際網路：10101 ---> [4,-4,4,-4,4]

機器學習：01011 ---> [-5,5,-5,5,5]

5、對上述變換後的列表進行列向累加得到：[-3, -1, 1, 1, 9]

6、對上述累加後的結果進行變換，對應位置為正數時取1，對應位置為負數時取0。

即：[-3, -1, 1, 1, 9] ---> 00111

7、對兩篇文章得到兩個simhash值後，計算兩篇文章的simhash相似度就可以直接計算這兩個simhash值得相似度即可，計算兩個simhash的相似度通常使用漢明距離，漢明距離說白了就是計算兩個編碼相對位置不相同的個數，我們也可以計算兩個simhash取異或後看1的個數是否超過某個閾值（自己設定，一般3），大於閾值則判定為不相似，小於等於閾值判定為相似。

計算文字相似度

計算文字相似度推薦2收藏簡單講解文字相似度計算在資訊檢索資料探勘機器翻譯文件複製檢測等領域有著廣泛的應用。比如控制，我們假設你開發了乙個微博並且已經把世界上罵人的句子都已經收錄進了資料庫，那麼當乙個使用者發微博時會先跟罵人句子的資料庫進行比較，如果符合裡面的句子就不讓使用者發出。通常...

文字相似度計算

一簡介文字相似度是進行文字聚類的基礎，和傳統的結構化數值資料的聚類方法相似，文字聚類是通過計算文字之間的距離來表示文字之間的相似度，並產生聚類。文字相似度的常用計算反法有餘弦定理。但是文字資料和普通的資料不同，它是一種半結構化的資料，在進行聚類之前必須要對文字資料來源進行處理，如分詞向量化...

計算文字相似度

來自簡單講解文字相似度計算在資訊檢索資料探勘機器翻譯文件複製檢測等領域有著廣泛的應用。比如控制，我們假設你開發了乙個微博並且已經把世界上罵人的句子都已經收錄進了資料庫，那麼當乙個使用者發微博時會先跟罵人句子的資料庫進行比較，如果符合裡面的句子就不讓使用者發出。通常情況下，很多任務程師就...

計算文字相似度 文字相似度演算法之 simhash

計算文字相似度

文字相似度計算

計算文字相似度

相關推薦

計算文字相似度文字相似度演算法之 simhash