Pandas 如何计算列中特定值的出现次数

在数据分析中，计算列中特定值的出现次数是一个常见的任务。幸运的是，Python中的pandas库提供了一种快速简便的方法来实现这一点，即使用value_counts()方法。此方法返回一个包含该列中每个唯一值计数的Pandas系列。然后，您可以使用方括号和您想要计数的值来访问特定值的计数。

在本文中，我们将逐步介绍如何计算pandas列中特定值的出现次数的步骤。我们将介绍如何创建pandas DataFrame，将CSV文件读入DataFrame，以及使用value_counts()方法来计算列中特定值的出现次数。我们还将讨论一些常见的使用场景，例如找到列中出现最频繁的值或识别数据质量问题。

通过阅读本文，您将对如何计算pandas列中特定值的出现次数有了扎实的理解，并能将这个知识应用到自己的数据分析项目中。

使用value_counts()方法

计算pandas列中特定值的最简单方法是使用value_counts()方法。该方法返回一个包含该列中每个唯一值计数的Pandas系列。然后，您可以使用方括号和要计数的值来访问特定值的计数。

考虑下面所示的代码。

示例

import pandas as pd

# create a sample DataFrame
data = {'fruit': ['apple', 'orange', 'banana', 'apple', 'orange']}
df = pd.DataFrame(data)

# use value_counts() to count occurrences of 'apple'
count = df['fruit'].value_counts()['apple']

print(f"The number of apples is: {count}")

解释

在这个例子中，我们首先创建了一个包含一个名为’fruit’的列的样本DataFrame。然后我们使用value_counts()方法来计算’fruit’列中每个唯一值的出现次数。最后，我们使用方括号和值’apple’来访问值’apple’的计数。

输出

The number of apples is: 2

使用group_by()方法

在pandas列中计算特定值出现的次数的另一种方法是使用groupby()方法。该方法将DataFrame按指定列中的值进行分组，并允许您对每个组执行操作。

考虑下面显示的代码。

示例

import pandas as pd

# create a sample DataFrame
data = {'fruit': ['apple', 'orange', 'banana', 'apple', 'orange']}
df = pd.DataFrame(data)

# use groupby() and size() to count occurrences of 'apple'
count = df.groupby('fruit').size()['apple']

print(f"The number of apples is: {count}")

说明

在这个示例中，首先我们创建一个包含名为“fruit”的列的样本DataFrame。然后我们使用groupby()方法根据“fruit”列中的值对DataFrame进行分组。然后我们使用size()方法统计“fruit”列中每个唯一值的出现次数。最后，我们通过使用方括号和值“apple”来访问“apple”值的计数。

输出

The number of apples is: 2

使用布尔掩码

在pandas列中计算特定值出现次数的第三种方法是使用布尔掩码。布尔掩码是一个由True/False值组成的数组，您可以使用它来筛选一个DataFrame。

考虑下面显示的代码。

示例

import pandas as pd

# create a sample DataFrame
data = {'fruit': ['apple', 'orange', 'banana', 'apple', 'orange']}
df = pd.DataFrame(data)

# use a boolean mask to count occurrences of 'apple'
mask = df['fruit'] == 'apple'
count = len(df[mask])

print(f"The number of apples is: {count}")