import difflib
def string_similar(s1, s2):
return difflib.sequencematcher(none, s1, s2).quick_ratio()
print(string_similar('愛爾眼科滬濱醫院', '滬濱愛爾眼科醫院'))
print(string_similar('北戴河阿那亞隱廬酒店', '北戴河阿那亞隱廬酒店'))
print(string_similar('北戴河阿那亞隱廬酒店', '北戴河阿那亞隱廬酒店式公寓'))
print(string_similar('安定區婦幼保健站', '定西市安定區婦幼保健站'))
print(string_similar('廣州市醫院', '廣東省中醫院'))
print(string_similar('北京北辰五洲皇冠國際酒店', '北京北辰洲際酒店'))
print(string_similar('北京釣魚台大酒店', '百時快捷酒店(北京西釣魚台地鐵站店)'))
print(string_similar('clubmed joyview北戴河**海岸度假村', 'club med joyview北戴河**海岸度假村'))
print(string_similar('張家口太舞滑雪小鎮太舞酒店', '張家口太舞滑雪小鎮雪麓居酒店'))
對比結果
1.0
1.00.8695652173913043
0.8421052631578947
0.5454545454545454
0.80.5384615384615384
0.9411764705882353
0.8148148148148148
Java 對比兩字串的相似度
編輯距離演算法,首先由 科學家levenshtein提出的,又叫levenshtein distance 主要用來計算從原串 s 轉換到目標串 t 所需要的最少的插入,刪除和替換的數目,在nlp中應用比較廣泛,同時也常用來計算你對原文所作的改動數 public class levenshtein e...
字串相似度
這個演算法 於網上,但忘記了出處,對其使使用了 issame封裝,然後用在了自己的網頁資料抓取 中。求解兩個字串的相似度int calculatestringdistance const string stra,const string strb intret c lena 1 lenb 1 for...
字串相似度
最近要對字串進行聚類,這些字串都是 的輸出,嘗試了幾種字串相似度度量的方法 levenshtein距離 字串核函式 lcs max len str1,str2 其中相似度用公式distance 1.0 similarity 1轉換為距離.使用層次聚類方法.下面是要聚類的字串 points aabbc...