Python Pandas – 返回不包含重复值的索引

在数据分析和数据挖掘中，经常需要在数据进行操作前，对数据中的重复值进行去重。Pandas的unique()方法可以很好地实现这个功能，不过它只返回去重后的值，并没有返回去重后的索引。而在实际项目中，有时候需要返回去重后的索引。

那么，如何返回不包含重复值的索引呢？Pandas为我们提供了几个方法，本文将详细介绍它们的用法。

drop_duplicates()

这个方法可以去除DataFrame中的重复行。在去重时，它会默认保留第一个出现的值，并删除其余重复值。

例如，下面的数据集中，名字被重复输入了两次。

import pandas as pd

data = {'name': ['Alice', 'Bob', 'Alice', 'Chris'], 'age': [20, 30, 20, 25]}
df = pd.DataFrame(data)

print(df)

输出结果如下：

    name  age
0  Alice   20
1    Bob   30
2  Alice   20
3  Chris   25

可以看到，其中名字为”Alice”的行被重复输入了两次。

现在，我们使用drop_duplicates()方法去重。

df_no_dup = df.drop_duplicates()
print(df_no_dup)

输出结果如下：

    name  age
0  Alice   20
1    Bob   30
3  Chris   25

可以看到，第二行被删除了。但是，我们还没有返回去重后的索引。接下来，我们将看到如何通过drop_duplicates()方法来获取不包含重复值的索引。

index_no_dup = df_no_dup.index.tolist()
print(index_no_dup)

输出结果如下：

[0, 1, 3]

可以看到，输出了不包含重复值的索引。

duplicated()

duplicated()方法可以返回一个Series，标识DataFrame中的每一行是否是重复行。在duplicated()方法中，我们可以选择保留哪一个出现的重复值，并将其余重复值删除。默认情况下，duplicated()方法返回的Series中，第二个及以后的出现的重复值都会被标记为True。

例如，继续使用上述数据集。

duplicated = df.duplicated()
print(duplicated)

输出结果如下：

0    False
1    False
2     True
3    False
dtype: bool

可以看到，第二个重复值被标记为True，并且它们的索引是2。

那么，如果我们希望将重复值中的第一个保留下来，将其余的删除怎么办呢？我们可以通过指定keep参数来实现。

duplicated_keep_first = df.duplicated(keep='first')
print(duplicated_keep_first)

输出结果如下：

0    False
1    False
2     True
3    False
dtype: bool

可以看到，重复值中的第二个被标记为True。

最后，我们再通过where()方法把duplicated()方法返回的Series转换为只包含True和False的索引列表。

index_dup = duplicated.where(duplicated == True).index.tolist()
index_no_dup = duplicated.where(duplicated == False).index.tolist()

print("重复值索引：", index_dup)
print("不包含重复值索引：", index_no_dup)

输出结果如下：

重复值索引： [2]
不包含重复值索引： [0, 1, 3]

可以看到，和前文通过drop_duplicates()方法返回的索引列表是一致的。

总结

本文介绍了两种方式，去除DataFrame中的重复行并返回不包含重复值的索引：drop_duplicates()和duplicated()方法。

其中，drop_duplicates()方法直接返回去重后的DataFrame，并通过DataFrame的index属性获取不包含重复值的索引。

而duplicated()方法返回一个Series，标识DataFrame中的每一行是否是重复行，并可以通过指定keep参数来选择保留哪一个出现的重复值，并将其余重复值删除。接着，我们可以通过where()方法将Series转换为只包含True和False的索引列表，从而获取重复值索引和不包含重复值索引。

希望本文能够帮助读者更好地理解和使用Pandas中的去重方法。