python自帶比較相似度的模組,difflib。比較兩個字串的模組是difflib.sequencematcher,使用起來很簡單:
import difflib
def string_similar(s1, s2):
return difflib.sequencematcher(none, s1, s2).quick_ratio()
print string_similar('愛爾眼科滬濱醫院', '滬濱愛爾眼科醫院')
print string_similar('安定區婦幼保健站', '定西市安定區婦幼保健站')
print string_similar('廣州市醫院', '廣東省中醫院')
執行結果:
1.0
0.842105263158
0.606060606061
最主要的是,python原生的模組的效率都比較好。其中none的位置是乙個函式,用來去掉自己不想算在內的元素。比如我想把空格排除在外:
seq = difflib.sequencematcher(lambda x:x=" ", a, b)
ratio = seq.ratio()
Python 比較字串相似度
字串相似度應用場景 拼寫糾錯 文字去重 上下文相似性 不同 資料對比等。評價字串相似度最常見的辦法就是 把乙個字串通過插入 刪除或替換這樣的編輯操作,變成另外乙個字串,所需要的最少編輯次數,這種就是編輯距離 edit distance 度量方法,也稱為levenshtein距離。方法1 diffli...
Php 比較字串相似度
除了利用cookies ip限制等技術外,我們可以利用php自身帶的similar text函式來判斷使用者發帖內容的相似度。similar text 函式計算兩個字串的匹配字元的數目,也可以計算兩個字串的相似度 以百分比計 similar text string1,string2,percent ...
字串相似度
這個演算法 於網上,但忘記了出處,對其使使用了 issame封裝,然後用在了自己的網頁資料抓取 中。求解兩個字串的相似度int calculatestringdistance const string stra,const string strb intret c lena 1 lenb 1 for...