pandas 删除重复行|极客笔记

pandas 删除重复行

在数据处理过程中，经常会遇到需要删除重复行的情况。重复行可能会影响数据分析的准确性，因此在进行数据清洗时，删除重复行是一个很重要的步骤。Pandas 是一个强大的数据处理工具，它提供了丰富的功能，可以帮助我们高效地处理数据中的重复行。

什么是重复行

在数据集中，如果某一行的数据与另一行的数据完全相同，那么我们称这两行为重复行。重复行可能是由于数据录入错误、数据处理错误或者数据合并错误导致的。因此，在数据处理过程中，我们需要及时发现并删除这些重复行。

如何判断重复行

Pandas 提供了 duplicated() 方法来判断数据中是否存在重复行。该方法返回一个布尔型的 Series，如果某一行数据与之前的任意一行数据完全相同，则对应位置为 True，否则为 False。

下面我们来看一个示例：

import pandas as pd

data = {'A': [1, 2, 2, 3, 4, 5],
        'B': ['a', 'b', 'b', 'c', 'd', 'e']}
df = pd.DataFrame(data)

duplicates = df.duplicated()
print(duplicates)

运行以上代码，我们会得到如下结果：

0    False
1    False
2     True
3    False
4    False
5    False
dtype: bool

根据上面的输出，我们可以看到第二行和第三行是重复行，因为它们的数据是完全相同的。

删除重复行

一旦我们确定了数据中的重复行，就可以开始删除这些重复行。Pandas 提供了 drop_duplicates() 方法来帮助我们删除重复行。该方法会返回一个新的 DataFrame，其中删除了重复的行。

下面我们来看一个示例：

import pandas as pd

data = {'A': [1, 2, 2, 3, 4, 5],
        'B': ['a', 'b', 'b', 'c', 'd', 'e']}
df = pd.DataFrame(data)

new_df = df.drop_duplicates()
print(new_df)

运行以上代码，我们会得到如下结果：

根据上面的结果，我们可以看到重复的行已经被成功删除了，得到了一个新的 DataFrame。

删除特定列重复行

有时候我们只需要根据某一列或者某几列的数值判断是否是重复行，这时可以使用 subset 参数。subset 参数接受一个或多个列名，表示只根据这些列判断是否是重复行。

下面我们来看一个示例：

import pandas as pd

data = {'A': [1, 2, 2, 3, 4, 5],
        'B': ['a', 'b', 'b', 'c', 'd', 'e']}
df = pd.DataFrame(data)

new_df = df.drop_duplicates(subset=['A'])
print(new_df)

运行以上代码，我们会得到如下结果：

根据上面的结果，我们可以看到只根据列 A 判断重复行，第二行和第三行被删除了。

保留最后一个重复行

有时候我们需要保留最后一个重复行，可以使用 keep='last' 参数。该参数会保留最后一个重复行，而删除其他重复行。

下面我们来看一个示例：

import pandas as pd

data = {'A': [1, 2, 2, 3, 4, 5],
        'B': ['a', 'b', 'b', 'c', 'd', 'e']}
df = pd.DataFrame(data)

new_df = df.drop_duplicates(keep='last')
print(new_df)

运行以上代码，我们会得到如下结果：

根据上面的结果，我们可以看到只保留了最后一个重复行，而删除了其他重复行。

总结

在数据处理过程中，删除重复行是一个常见的操作。Pandas 提供了 drop_duplicates() 方法来帮助我们高效地删除重复行。通过本文的介绍，相信大家已经掌握了如何判断和删除重复行的方法。

pandas 删除重复行