pandas count
介绍
在数据分析和处理中,经常需要对数据进行计数统计。而pandas是一个功能强大的数据分析工具,提供了丰富的函数和方法来满足这种需求。其中,count
函数就是一种常用的方法,用于统计非空值的数量。本文将详细介绍pandas中的count
函数的用法和示例。
使用方法
count
函数用于统计每列或每行中的非空值数量。其使用方法如下:
DataFrame.count(axis=0, level=None, numeric_only=False)
axis
参数:默认为0,表示对每列进行计数统计;当为1时,表示对每行进行计数统计。level
参数:用于多级索引时,指定根据哪一级别进行计数统计。numeric_only
参数:默认为False,表示包括所有数据类型进行计数统计;当为True时,只计数数值型数据的数量。
返回值为一个Series,其中索引为列(或行)名,值为非空值的数量。
示例演示
为了更好地理解count
函数的用法,下面将给出一些示例演示。
示例数据
首先,让我们创建一个示例数据集,以便于后续的示例演示。
import pandas as pd
data = {'Name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob'],
'Age': [25, 32, 18, 25, 40],
'Gender': ['Female', 'Male', 'Male', 'Female', 'Male'],
'Income': [5000, None, 3000, 4000, 6000]}
df = pd.DataFrame(data)
创建了一个包含姓名(Name)、年龄(Age)、性别(Gender)和收入(Income)的DataFrame。其中,有一个空值为None
。
统计每列的非空值数量
首先,让我们使用count
函数统计每列的非空值数量。
column_count = df.count()
print(column_count)
输出为:
Name 5
Age 5
Gender 5
Income 4
dtype: int64
可以看到,count
函数返回的结果是一个Series,其中索引为列名,值为每列的非空值数量。从结果中可以看出,每列都有5个非空值,只有”Income”列有一个空值。
统计每行的非空值数量
接下来,让我们使用count
函数统计每行的非空值数量。
row_count = df.count(axis=1)
print(row_count)
输出为:
0 4
1 3
2 4
3 4
4 4
dtype: int64
同样地,count
函数返回的结果是一个Series,其中索引为行号,值为每行的非空值数量。从结果中可以看出,每行都有4个非空值。
统计特定列的非空值数量
有时候,我们可能只关心某一列的非空值数量。此时,可以使用count
函数的level
参数指定要统计的列。
income_count = df['Income'].count()
print(income_count)
输出为:
4
这里我们只统计”Income”列的非空值数量,结果为4。
统计数值型数据的非空值数量
还有一种常见的情况是,我们只关心数值型的非空值数量。此时,可以使用count
函数的numeric_only
参数。
numeric_count = df.count(numeric_only=True)
print(numeric_count)
输出为:
Age 5
Income 4
dtype: int64
只有”Age”和”Income”两列是数值型数据,所以结果只统计了这两列的非空值数量。
总结
通过本文的介绍,我们了解了pandas中的count
函数的用法和示例。它是一个非常有用的函数,可以用于统计每列或每行的非空值数量。无论是进行数据清洗、数据分析还是其他数据处理任务,都可以借助count
函数来快速统计数据的完整度。