在Python中确定两个字符串是否相似的程序

在日常生活中，我们常常需要判断两个字符串是否相似。比如，判断“Hello World”和“Hello World!”是否相似，判断“hello world”和“Hello World”是否相似等等。本文将介绍Python中如何确定两个字符串是否相似。

方法一：使用difflib库

Python的difflib库可以用来比较文本，并返回一个类似于Unix diff的差异结果。我们可以使用difflib库比较两个字符串，根据差异的程度来判断它们是否相似。

示例代码

import difflib

def similar(a, b):
    return difflib.SequenceMatcher(None, a, b).ratio()

str1 = "Hello World"
str2 = "Hello World!"
print(similar(str1, str2))    # 输出0.9166666666666666

str3 = "hello world"
str4 = "Hello World"
print(similar(str3, str4))    # 输出0.5833333333333333

解释

定义了一个函数similar来比较两个字符串的相似度，使用了difflib库中的SequenceMatcher方法来计算相似度。SequenceMatcher(None, a, b).ratio()返回的是a和b字符串的相似度，返回值在0~1之间，数值越高，表示相似度越大。

当我们比较“Hello World”和“Hello World!”时，输出的相似度为0.9166666666666666，说明这两个字符串相似。而比较“hello world”和“Hello World”时，输出的相似度为0.5833333333333333，说明这两个字符串不相似。

方法二：使用Levenshtein距离算法

除了使用difflib库，Python中还有其他方法可以计算两个字符串的相似度。其中一种方法是使用Levenshtein距离算法，这是一种计算编辑距离（两个字符串之间变换的最小代价）的方法。我们可以把编辑距离作为参考来判断两个字符串是否相似。

示例代码

def levenshteinDistanceDP(token1, token2):
    distances = [[0 for j in range(len(token2) + 1)] for i in range(len(token1) + 1)]
    for i in range(1, len(token1) + 1):
        distances[i][0] = i
    for j in range(1, len(token2) + 1):
        distances[0][j] = j
    for j in range(1, len(token2) + 1):
        for i in range(1, len(token1) + 1):
            if token1[i-1] == token2[j-1]:
                distances[i][j] = distances[i-1][j-1]
            else:
                distances[i][j] = min(distances[i-1][j], distances[i][j-1], distances[i-1][j-1]) + 1
    return distances[len(token1)][len(token2)]

def similar(a, b, threshold):
    if a == b:
        return True
    distance = levenshteinDistanceDP(a, b)
    if distance/len(a) <= threshold:
        return True
    else:
        return False

str1 = "Hello World"
str2 = "Hello World!"
print(similar(str1, str2, 0.2))    # 输出True

str3 = "hello world"
str4 = "Hello World"
print(similar(str3, str4, 0.2))    # 输出True

str5 = "Python is cool"
str6 = "Java is cool"
print(similar(str5, str6, 0.2))   # 输出False

解释

levenshteinDistanceDP是用来计算两个字符串之间的编辑距离，它返回的是两个字符串之间的距离（即变换的代价）。similar函数的功能是判断两个字符串是否相似，它的第三个参数threshold表示字符串相似度的阈值。当两个字符串的编辑距离除以其中一个字符串的长度小于等于阈值时，认为它们是相似的。

当我们比较“Hello World”和“Hello World!”时，输出的结果为True，说明这两个字符串相似。而比较“hello world”和“Hello World”时，输出的结果也为True，说明这两个字符串相似。同时，当我们比较“Python is cool”和“Java is cool”时，输出的结果为False，说明这两个字符串不相似。

方法三：使用Jaccard相似度算法

另一种计算字符串相似度的方法是使用Jaccard相似度算法，该算法基于集合论中的Jaccard系数。Jaccard相似度算法通常用于计算两个集合之间的差异程度，但它同样可以应用在字符串的相似度比较中。

示例代码

def jaccard_similarity(s1, s2):
    set1 = set(s1.split())
    set2 = set(s2.split())
    intersection = set1.intersection(set2)
    union = set1.union(set2)
    return len(intersection)/len(union)

str1 = "Hello World"
str2 = "Hello World!"
print(jaccard_similarity(str1, str2))    # 输出0.5

str3 = "hello world"
str4 = "Hello World"
print(jaccard_similarity(str3, str4))    # 输出0.5