Pandas 统计特定值的出现次数

在本文中，我们将介绍使用Pandas包来统计特定值在数据集中出现的次数。这是处理数据时非常常见的一个操作，因为我们很可能需要知道某个特定的值在数据集中出现了多少次，以进一步分析它的分布规律、相关性等。

背景知识

在介绍具体的统计方法之前，我们需要先了解一些Pandas包中的基本对象和操作：

Series：一维数据结构，类似于数组，并伴有序列名。它是Pandas包中另一个主要的类之一，我们可以通过Series来表达和处理一维数据。
DataFrame：Pandas中最主要的数据结构。它以表格的形式存储数据，其每列都称为一个Series。
value_counts()：用于计算一个Series中各个值出现的频率，返回一个以值为索引，以频率为值的Series。

使用value_counts统计特定值的出现次数

首先，我们需要创建一个简单的数据集，以便演示如何使用value_counts()方法来统计特定值的出现次数。如下所示，我们创建一维数据集，其中包含了0-4的随机整数。

import pandas as pd
import numpy as np

data = pd.Series(np.random.randint(0, 5, size=20))
print(data)
'''
0     4
1     1
2     2
3     4
4     2
5     4
6     3
7     4
8     3
9     2
10    4
11    4
12    0
13    4
14    3
15    2
16    1
17    1
18    1
19    0
'''

我们可以看到，该数据集包括了从0到4的整数，共20个数据。

接下来，我们使用value_counts()方法来计算每个值出现的次数。在该方法中，我们可以指定normalize参数，使其返回每个值的出现频率(默认为False)。

counts = data.value_counts()
print(counts)
'''
4    8
2    4
1    4
3    3
0    1
'''

我们可以看到，数据集中出现最多的值为4，出现了8次。而0出现的最少，仅出现了1次。此外，我们可以使用normalize参数将结果标准化，得到每个值出现的频率，如下所示。

freq = data.value_counts(normalize=True)
print(freq)
'''
4    0.400
2    0.200
1    0.200
3    0.150
0    0.050
'''

使用groupby()+size()方法统计特定值的出现次数

除了value_counts()方法，我们还可以使用groupby()+size()方法来实现针对特定值进行的计数统计。该方法需要先使用groupby()方法按照特定的值进行分组，再使用size()方法计算分组的大小。

下面，我们使用一个简单的数据集作为示例。该数据集有两列，分别代表姓名和性别。

data2 = pd.DataFrame({
    "name": ["Tom", "Jerry", "Alice", "Elena", "Frank", "Eva", "Claire", "Lucy"],
    "gender": ["M", "M", "F", "F", "M", "F", "F", "F"]
})
print(data2)
'''
     name gender
0     Tom      M
1   Jerry      M
2   Alice      F
3   Elena      F
4   Frank      M
5     Eva      F
6  Claire      F
7    Lucy      F
'''

现在，我们需要统计所有名字含有e的人员的数量。首先，我们需要使用str属性中的contains()方法，筛选出名字中含有e的人员，然后使用groupby()方法按照性别进行分组，最后使用size()方法计数。

e_names = data2[data2["name"].str.contains('e', case=False)]
count = e_names.groupby("gender").size()
print(count)
'''
gender
F    3
M    1
dtype: int64
'''

在上述代码中，我们首先使用contains方法，case=False表示忽略大小写，筛选出了名字中含有e的人员，e_names即为结果。接着，我们使用groupby()将e_names数据集按照性别进行分组，并使用size()方法计数，得到每个性别中包含名字中含有e的人员数量。