Pandas Compare如何比较两个Dataframe

如果你从事数据分析或数据科学工作，那么你已经知道比较DataFrames的重要性。幸运的是，Python库pandas提供了一个方便的”compare”方法，允许你比较两个DataFrames并突出显示它们的差异。这个方法非常有用，可以帮助识别数据集之间的差异，从而做出基于这些差异的明智决策。

在本文中，我们将介绍如何使用pandas compare来比较两个DataFrames，并探讨一些可用的自定义选项。无论你是经验丰富的数据分析师还是新手，本文都将为你提供必要的知识，让你能够有效自信地使用pandas compare。

基本语法

compare()函数的基本语法如下：

df1.compare(df2, **kwargs)

其中df1和df2是我们要比较的两个数据帧。**kwargs参数允许将各种选项和参数传递给函数。

示例

让我们从一个简单的示例开始。假设我们有两个数据帧df1和df2，如下所示:

import pandas as pd

df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df2 = pd.DataFrame({'A': [1, 2, 4], 'B': [4, 5, 7]})

这两个数据框具有相同的列但不同的值。我们可以使用compare()函数来比较这两个数据框，如下所示：

comparison = df1.compare(df2)
print(comparison)

输出

这将输出以下结果：

A  B     
  -3  6  7
  +4  0  1

结果显示了两个数据框之间的差异。A列下面的-3和6表示df2中的值比df1少3，而A列下面的+4和0表示df2中的值比df1多4。相应地，B列下面的7和1表示df2中的值比df1多1。

示例

这是使用 pandas compare() 函数比较两个数据框的又一个示例：

import pandas as pd

# Create two dataframes to compare
df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df2 = pd.DataFrame({'A': [1, 2, 4], 'B': [4, 5, 7]})

# Compare the two dataframes using the compare() function
comparison = df1.compare(df2)

# Print the comparison
print(comparison)

输出

这将会输出以下结果：

compare()函数生成一个新的数据框，显示df1和df2之间的差异。结果数据框的行以−为前缀，表示对应的值在df1中存在，而在df2中不存在。然而，以+为前缀的行表示对应的值在df2中存在，而在df1中不存在。另外，结果数据框中包含有差异的列的列标题，以便更清晰地显示。

参数和选项

compare()函数有几个参数和选项，以便在比较数据框时具有更大的灵活性。让我们来看看其中的一些。

‘Keep_shape’

keep_shape参数控制比较的数据框是否应具有相同的形状。默认情况下，此参数设置为True，这意味着比较的数据框应具有相同的行数和列数。如果设置为False，该函数将仅比较公共列，并忽略任何数据框中的额外列。

示例

这是一个例子

df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df2 = pd.DataFrame({'A': [1, 2, 4], 'B': [4, 5, 7], 'C': [8, 9, 10]})

comparison = df1.compare(df2, keep_shape=False)
print(comparison)

输出

这将输出以下结果：

A  B     
  -3  6  7
  +4  0  1

注意，在df2中的额外列C会被忽略。

‘keep_equal’

keep_equal参数负责确定比较的数据框中是否必须包含相同值的比较列。默认情况下，该参数设置为False，这意味着compare()函数将把两个值视为等价，即使它们具有不同的类型（例如1和1.0）。然而，如果将keep_equal设置为True，compare()函数将只考虑具有匹配类型的值作为等价值。

示例

这是一个示例：

df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df2 = pd.DataFrame({'A': [1.0, 2, 4], 'B': [4, 5, 7]})

comparison = df1.compare(df2, keep_equal=True)
print(comparison)

输出

这将输出以下结果：

值得注意的是，使用compare()函数比较两个数据框时，具有不同类型的列中的值将不被视为相等。例如，比较df1和df2时，位于列A第二行下方的+1表示df2中的值比df1中的值多1。这是因为df2中的值是浮点数，而df1中的值是整数。同样，列A第三行下方的−0表示df2中的值比df1中的值少0，因为df2中的值是整数，而df1中的值是浮点数。

‘keep_shape’和‘keep_equal’

keep_shape和keep_equal参数可一起使用，来控制比较的数据框的形状和相等性。例如：

示例

df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df2 = pd.DataFrame({'A': [1.0, 2, 4], 'B': [4, 5, 7], 'C': [8, 9, 10]})

comparison = df1.compare(df2, keep_shape=False, keep_equal=True)
print(comparison)

输出

这将输出以下结果：

注意，在df2中的额外列C被忽略，而具有不同类型的列A的值被认为不相等。

结论

总而言之，Pandas库提供了一种方便的功能，即“compare”，可以使数据分析师和科学家快速找出并强调两个DataFrame之间的差异。“compare”方法提供了根据具体要求自定义比较过程的灵活性。此外，Pandas还提供了各种其他方法和工具，以满足不同的数据分析和操作需求。因此，精通Pandas对于寻求高效处理和分析大型数据集的数据专业人士来说是一个重要优势。