pandas删除重复的行|极客笔记

pandas删除重复的行

在数据处理过程中，经常会遇到需要删除重复行的情况。使用Python中的pandas库可以很方便地实现这个功能。本文将详细介绍如何使用pandas删除重复的行，包括如何检测重复行、如何删除重复行、删除重复行的时候保留最后一行等操作。

检测重复行

在使用pandas删除重复行之前，首先需要检测数据中是否存在重复行。pandas提供了duplicated()函数来检测重复行。该函数的语法是DataFrame.duplicated(subset=None, keep='first')，其中参数subset用来指定检测重复的列，如果不指定则默认检测所有列；参数keep用来指定保留哪一行，有三种选择，分别是'first'、'last'和False，默认是'first'。

下面是一个简单的示例，演示如何使用duplicated()函数检测重复行：

import pandas as pd

data = {'A': [1, 2, 3, 1, 2], 'B': [4, 5, 6, 4, 5]}
df = pd.DataFrame(data)

print(df)
print(df.duplicated())

运行上面的代码，可以得到如下输出：

   A  B
0  1  4
1  2  5
2  3  6
3  1  4
4  2  5

0    False
1    False
2    False
3     True
4     True
dtype: bool

从输出可以看出，DataFrame中的第3行和第4行是重复的。

删除重复行

有了重复行的检测结果，接下来就可以删除重复行了。pandas提供了drop_duplicates()函数来删除重复行。该函数的语法是DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)，与duplicated()函数类似，参数subset用来指定删除重复的列，参数keep用来指定保留哪一行，参数inplace用来指定是否在原DataFrame上进行删除操作，默认是不在原DataFrame上进行操作。

下面是一个简单的示例，演示如何使用drop_duplicates()函数删除重复行：

import pandas as pd

data = {'A': [1, 2, 3, 1, 2], 'B': [4, 5, 6, 4, 5]}
df = pd.DataFrame(data)

print("原始数据：")
print(df)

df.drop_duplicates(inplace=True)
print("删除重复行后的数据：")
print(df)

运行上面的代码，可以得到如下输出：

保留最后一行

有时候需要删除重复行的时候保留最后一行，而不是保留第一行。这时可以通过指定keep='last'来实现。下面是一个示例：

import pandas as pd

data = {'A': [1, 2, 3, 1, 2], 'B': [4, 5, 6, 4, 5]}
df = pd.DataFrame(data)

print("原始数据：")
print(df)

df.drop_duplicates(keep='last', inplace=True)
print("删除重复行并保留最后一行后的数据：")
print(df)

运行上面的代码，可以得到如下输出：

原始数据：
   A  B
0  1  4
1  2  5
2  3  6
3  1  4
4  2  5

删除重复行并保留最后一行后的数据：
   A  B
2  3  6
3  1  4
4  2  5

总结

本文介绍了如何使用pandas删除重复的行，包括检测重复行、删除重复行以及保留最后一行等操作。通过掌握这些技巧，可以更方便地处理数据中的重复行，提高数据处理的效率。

pandas删除重复的行