計算文字相似度 文字相似度演算法之 simhash

2021-10-14 17:00:37 字數 978 閱讀 7529

文字相似度演算法種類繁多,今天先介紹一種常見的網頁去重演算法simhash。

1、什麼是simhash

2、simhash步驟

(人工智慧,1)、(大資料,2)、(科技,3)、(網際網路,4)、(機器學習,5)

人工智慧:00101

大資料:11001

科技:00110

網際網路:10101

機器學習:01011

hash的方法後邊會再寫文章著重介紹,這裡可以先理解為將詞轉化為二進位制就可以了。

4、針對每乙個hash後的詞,相應位置是1的,權重w取正,相應位置是0的,權重w取負,及變為:

人工智慧:00101 ---> [-1,-1,1,-1,1]

大資料:11001 ---> [2,2,-2,-2,2]

科技:00110 ---> [-3,-3,3,3,-3]

網際網路:10101 ---> [4,-4,4,-4,4]

機器學習:01011 ---> [-5,5,-5,5,5]

5、對上述變換後的列表進行列向累加得到:[-3, -1, 1, 1, 9]

6、對上述累加後的結果進行變換,對應位置為正數時取1,對應位置為負數時取0。

即:[-3, -1, 1, 1, 9] ---> 00111

7、對兩篇文章得到兩個simhash值後,計算兩篇文章的simhash相似度就可以直接計算這兩個simhash值得相似度即可,計算兩個simhash的相似度通常使用漢明距離,漢明距離說白了就是計算兩個編碼相對位置不相同的個數,我們也可以計算兩個simhash取異或後看1的個數是否超過某個閾值(自己設定,一般3),大於閾值則判定為不相似,小於等於閾值判定為相似。

計算文字相似度

計算文字相似度 推薦2收藏 簡單講解 文字相似度計算在資訊檢索 資料探勘 機器翻譯 文件複製檢測等領域有著廣泛的應用。比如 控制,我們假設你開發了乙個微博 並且已經把世界上罵人的句子都已經收錄進了資料庫,那麼當乙個使用者發微博時會先跟罵人句子的資料庫進行比較,如果符合裡面的句子就不讓使用者發出。通常...

文字相似度計算

一 簡介 文字相似度是進行文字聚類的基礎,和傳統的結構化數值資料的聚類方法相似,文字聚類是通過計算文字之間的 距離 來表示文字之間的相似度,並產生聚類。文字相似度的常用計算反法有餘弦定理。但是文字資料和普通的資料不同,它是一種半結構化的資料,在進行聚類之前必須要對文字資料來源進行處理,如分詞 向量化...

計算文字相似度

來自 簡單講解 文字相似度計算在資訊檢索 資料探勘 機器翻譯 文件複製檢測等領域有著廣泛的應用。比如 控制,我們假設你開發了乙個微博 並且已經把世界上罵人的句子都已經收錄進了資料庫,那麼當乙個使用者發微博時會先跟罵人句子的資料庫進行比較,如果符合裡面的句子就不讓使用者發出。通常情況下,很多任務程師就...