Python Pandas – 查找两个数据帧之间不同的行

在数据分析和处理过程中，经常需要对两个数据帧进行比较，以查找它们之间的区别。本文将介绍如何使用Python Pandas库查找两个数据帧之间不同的行。

Pandas库介绍

Pandas是基于NumPy的数据处理库，提供了高性能的数据分析工具，支持快速、灵活地进行数据操作和处理。Pandas主要包含两个常用的数据结构：Series和DataFrame。其中，Series是一维数组，而DataFrame则是二维的表格型数据结构。

两个数据帧的比较

在比较两个数据帧时，我们需要先使用Pandas库读取数据，然后分别将它们转换为DataFrame对象。可以使用Pandas的read_csv()函数读取CSV格式的数据文件，也可以使用read_excel()函数读取Excel格式的数据文件。

假设我们有两个数据文件”data1.csv”和”data2.csv”，它们分别如下所示：

data1.csv

ID,Name,Gender,Score
001,张三,Male,80
002,李四,Female,88
003,王五,Female,92
004,赵六,Male,75

data2.csv

ID,Name,Gender,Score
001,张三,Male,80
002,李四,Female,87
003,王五,Female,92
005,钱七,Male,81

我们可以先读取这两个数据文件，并将它们转换为DataFrame对象：

import pandas as pd

# 读取数据文件
df1 = pd.read_csv("data1.csv")
df2 = pd.read_csv("data2.csv")

# 将数据转换为DataFrame对象
df1 = pd.DataFrame(df1)
df2 = pd.DataFrame(df2)

接下来，我们可以使用Pandas的isin()函数和DataFrame的drop_duplicates()函数，查找两个数据帧之间不同的数据行，最后将它们合并成一个新的数据帧。

# 查找df2中不包含在df1中的行
df3 = df2[~df2.isin(df1)].drop_duplicates()

# 查找df1中不包含在df2中的行
df4 = df1[~df1.isin(df2)].drop_duplicates()

# 合并两个数据帧
df5 = pd.concat([df3, df4])

# 输出结果
print(df5)

输出结果如下所示：

     ID Name  Gender  Score
1   002   李四  Female     87
3   005   钱七    Male     81
0   004   赵六    Male     75

完整代码

import pandas as pd

# 读取数据文件
df1 = pd.read_csv("data1.csv")
df2 = pd.read_csv("data2.csv")

# 将数据转换为DataFrame对象
df1 = pd.DataFrame(df1)
df2 = pd.DataFrame(df2)

# 查找df2中不包含在df1中的行
df3 = df2[~df2.isin(df1)].drop_duplicates()

# 查找df1中不包含在df2中的行
df4 = df1[~df1.isin(df2)].drop_duplicates()

# 合并两个数据帧
df5 = pd.concat([df3, df4])

# 输出结果
print(df5)