python比较字符串相似度

python自带比较相似度的模块，difflib。比较两个字符串的模块是difflib.SequenceMatcher，使用起来很简单：

import difflibdef string_similar(s1, s2):
return difflib.SequenceMatcher(None, s1, s2).quick_ratio()

print string_similar('爱尔眼科沪滨医院', '沪滨爱尔眼科医院')

print string_similar('安定区妇幼保健站', '定西市安定区妇幼保健站')

print string_similar('广州市医院', '广东省中医院')

运行结果：

1.0

0.842105263158

0.606060606061

最主要的是，python原生的模块的效率都比较好。其中None的位置是一个函数，用来去掉自己不想算在内的元素。比如我想把空格排除在外：

seq = difflib.SequenceMatcher(lambda x:x=" ", a, b)

ratio = seq.ratio()

准备做一个小功能，需要计算字符串的相似度，提前做点功课。

算法

字符串相似度的算法以及有很多资料了。最常见的理解就是：把一个字符串通过插入、删除或替换这样的编辑操作，变成另外一个字符串，所需要的最少编辑次数。AKA，两个字符串之间的距离。解这样一个问题，可以使用穷举法，也可以使用动态规划，大家可以自行搜索。贪婪法不适合这个问题。

python-Levenshtein

我需要使用python完成相似度的计算，因而选择了python-Levenshtein。python-Levenshtein的常用函数包括：

1） Levenshtein.hamming(str1, str2) 计算汉明距离。要求str1和str2必须长度一致。是描述两个等长字串之间对应位置上不同字符的个数。

2）Levenshtein.distance(str1, str2) 计算编辑距离（也称为Levenshtein距离）。是描述由一个字串转化成另一个字串最少的操作次数，在其中的操作包括插入、删除、替换。 3）Levenshtein.ratio(str1, str2) 计算莱文斯坦比。计算公式 r = (sum - ldist) / sum, 其中sum是指str1 和 str2 字串的长度总和，ldist是类编辑距离。注意：这里的类编辑距离不是2中所说的编辑距离，2中三种操作中每个操作+1，而在此处，删除、插入依然+1，但是替换+2。这样设计的目的：ratio('a', 'c')，sum=2,按2中计算为（2-1）/2 = 0.5,’a','c'没有重合，显然不合算，但是替换操作+2，就可以解决这个问题。

python比较字符串相似度

猜你喜欢