pandas 某一列取唯一去掉重复的|极客笔记

pandas 某一列取唯一去掉重复的

在数据处理中，经常会遇到需要对某一列数据进行去重操作的情况，以确保数据的准确性和完整性。在Python中，pandas是一种强大的数据处理库，提供了许多方便的函数来处理数据，包括去除重复值。

1. 准备工作

在开始操作之前，我们首先需要导入pandas库，并创建一个示例DataFrame用于演示去重操作。

import pandas as pd

# 创建示例DataFrame
data = {
    'A': [1, 2, 3, 4, 1, 2, 3, 4],
    'B': ['a', 'b', 'c', 'd', 'a', 'b', 'c', 'd']
}

df = pd.DataFrame(data)
print(df)

运行以上代码，我们可以得到如下输出的DataFrame：

2. 去除重复值

接着，我们可以使用drop_duplicates()函数来去除DataFrame中的重复值。首先，我们可以对整个DataFrame去重：

df_unique = df.drop_duplicates()
print(df_unique)

上述代码会将整个DataFrame中的重复行去除，得到不包含重复值的DataFrame：

如果我们只需要对某一列数据进行去重操作，可以使用subset参数指定要去重的列名。例如，如果我们只想要对列’B’进行去重：

df_unique_col = df.drop_duplicates(subset=['B'])
print(df_unique_col)

运行以上代码可以得到如下结果：

在这种情况下，只有列’B’中的重复值被去除，得到了不包含重复值的DataFrame。

3. 保留最后一个重复值

有时候，我们可能需要保留重复值中的最后一个，而不是第一个。这时，我们可以使用keep='last'参数来指定保留最后一个重复值。例如，对’A’列保留最后一个重复值：

df_keep_last = df.drop_duplicates(subset=['A'], keep='last')
print(df_keep_last)

运行以上代码，我们会得到如下结果：

可以看到，现在保留的是每个重复值中的最后一个。

4. 保留第一个重复值

同样地，如果我们希望保留重复值中的第一个，可以使用keep='first'参数。例如，对列’B’保留第一个重复值：

df_keep_first = df.drop_duplicates(subset=['B'], keep='first')
print(df_keep_first)

运行以上代码，我们将得到：

这样便保留了每个重复值中的第一个。

5. 小结

通过以上示例，我们可以看到如何使用pandas对某一列数据进行去重操作，以及如何保留重复值中的第一个或最后一个。在实际的数据处理中，去重是很常见的一步操作，可以帮助我们清洗数据、确保数据的唯一性。使用pandas提供的函数，可以轻松地实现这一目的。

pandas 某一列取唯一去掉重复的