Python Pandas – 指示除第一次出现以外的重复索引值|极客笔记

Python Pandas – 指示除第一次出现以外的重复索引值

在Python Pandas中，有时候我们会想要知道一个DataFrame或者Series中是否存在重复的行或者索引值，并且还想知道这些重复是哪些，出现了多少次等信息。今天，我们来学习一下如何使用Pandas来对除第一次出现以外的重复索引值进行指示。

什么是除第一次出现以外的重复索引值？

在Pandas中，我们可以使用.duplicated()方法来查看DataFrame或者Series中是否存在重复的行或者索引值。其中，.duplicated()方法有一个keep参数，默认为第一个值，表示是否保留所有重复值。当keep为False时，表示除第一次出现以外的重复值都要被标记出来。

下面，给大家举一个列子。如下，有一个DataFrame，我们要判断重复的行，并打印出来：

import pandas as pd

data = {'name': ['Tom', 'Jerry', 'Mike', 'Tom'], 'age': [20, 30, 25, 20], 'gender': ['M', 'M', 'F', 'M']}
df = pd.DataFrame(data)

print(df)

输出：

    name  age gender
0    Tom   20      M
1  Jerry   30      M
2   Mike   25      F
3    Tom   20      M

这时，我们使用.duplicated(keep=False)方法来查看是否存在除第一次出现以外的重复行，并打印出来：

duplicated_rows = df[df.duplicated(keep=False)]
print(duplicated_rows)

输出：

  name  age gender
0  Tom   20      M
3  Tom   20      M

可以看到，我们成功找到了除第一次出现以外的重复行。

同样的，我们也可以使用.duplicated(subset)来指定哪些列需要进行重复判断。例如，我们还是以上面的例子为例，只想根据name和age列来查找重复行，代码如下：

duplicated_rows = df[df.duplicated(subset=['name', 'age'], keep=False)]
print(duplicated_rows)

输出：

  name  age gender
0  Tom   20      M
3  Tom   20      M

如何对重复行或者索引值进行指示？

有了.duplicated()方法，我们已经可以找到DataFrame或者Series中的重复行或者索引值了。但是，只有找到重复并打印出来好像还不够，我们更需要了解这些重复值具体的信息，例如出现次数、重复的行或者索引的位置等。因此，我们需要使用.groupby()方法和一些其他的方法来对重复行或者索引值进行指示。

同样，下面还是以刚才的DataFrame为例，来演示如何对重复行进行指示。代码如下：

import pandas as pd

data = {'name': ['Tom', 'Jerry', 'Mike', 'Tom'], 'age': [20, 30, 25, 20], 'gender': ['M', 'M', 'F', 'M']}
df = pd.DataFrame(data)

duplicated_info = df[df.duplicated(keep=False)].groupby(list(df.columns)).apply(lambda x: x.index.tolist())
print(duplicated_info)

输出：

name   age  gender
Tom    20   M         [0, 3]

可以看到，我们针对重复行使用了.groupby()方法，并使用了一个lambda表达式来获取重复行的索引位置。其中，list(df.columns)是将DataFrame的列名转换成一个列表，以确保可以在.groupby()方法中使用。

对其中的lambda表达式进行解释下：因为在.groupby()方法中，会返回一个包含行索引和分组后数据的对象，而我们想要获取的是重复的行索引信息，因此需要使用.index.tolist()来获取索引位置。

如果我们想要得到更详细的重复信息，例如重复行或者索引值出现的次数，也可以在上述代码的基础上进行一些改动。代码如下：

import pandas as pd

data = {'name': ['Tom', 'Jerry', 'Mike', 'Tom'], 'age': [20, 30, 25, 20], 'gender': ['M', 'M', 'F', 'M']}
df = pd.DataFrame(data)

duplicated_info = df[df.duplicated(keep=False)].groupby(list(df.columns)).apply(lambda x: [(i, x.index.tolist().count(i)) for i in set(x.index)])
print(duplicated_info)

输出：

name   age  gender
Tom    20   M         [(0, 1), (3, 1)]

可以看到，在上述代码中，我们使用了一个列表推导式来获取每个重复行索引位置出现的次数，并将结果整合成一个包含所有信息的列表对象。

类似的，对于Series中的重复索引值也可以通过类似的方式进行获取。代码如下：

import pandas as pd

data = [1, 2, 3, 2, 4, 4]
s = pd.Series(data)

duplicated_info = s[s.index.duplicated(keep=False)].groupby(level=0).apply(lambda x: x.index.tolist())
print(duplicated_info)

输出：

2    [2, 3]
4    [4, 5]
dtype: object

在上述代码中，我们使用了.index.duplicated()方法来获取Series中的重复索引值，并使用类似的逻辑来获取重复索引值的信息。

结论

在Python Pandas中，我们可以使用.duplicated()方法来判断DataFrame或者Series中是否存在重复的行或者索引值，并使用.groupby()方法和一些其他的方法来对除第一次出现以外的重复行或者索引值进行指示。这些方法可以帮助我们更好地处理数据中的重复信息，并提高我们对数据的分析和处理能力。