pandas 列 非空个数
在数据分析和处理过程中,经常需要统计 pandas dataframe 中每一列的非空值个数。这对于初步了解数据的完整性和质量非常重要,同时也可以帮助我们更好地进行数据清洗和预处理工作。
在 pandas 中,我们可以使用 count()
方法来统计每一列的非空值个数。本文将详细介绍如何使用 pandas 进行这项操作,并给出相应的示例代码。
pandas 列 非空个数示例
假设我们有以下的一个示例数据集 data.csv
:
A,B,C
1,,3
4,5,
,7,8
我们首先需要加载这个数据集,并查看数据的基本信息:
import pandas as pd
# 读取数据集
df = pd.read_csv("data.csv")
# 查看数据的基本信息
print(df.info())
运行上述代码,我们可以看到数据集的基本信息:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
A 2 non-null float64
B 2 non-null float64
C 2 non-null float64
dtypes: float64(3)
memory usage: 152.0 bytes
我们可以看到,数据集一共有 3 行,每一列的非空值个数为 2。接下来,我们将使用 count()
方法来统计每一列的非空值个数。
# 统计每一列的非空值个数
non_null_count = df.count()
print(non_null_count)
运行上述代码,我们可以得到每一列的非空值个数:
A 2
B 2
C 2
dtype: int64
可以看到,列 A
、B
和 C
的非空值个数分别为 2。这样,我们就成功地统计了每一列的非空值个数。
拓展:统计指定列的非空值个数
有时候,我们可能只关心某几列的非空值个数,这时可以通过指定列名来进行统计。下面是一个示例,我们只统计列 B
和 C
的非空值个数:
# 统计指定列的非空值个数
specified_columns = ["B", "C"]
specified_non_null_count = df[specified_columns].count()
print(specified_non_null_count)
运行上述代码,我们可以得到指定列的非空值个数:
B 2
C 2
dtype: int64
可以看到,列 B
和 C
的非空值个数分别为 2。
总结
通过本文的介绍,我们学习了如何使用 pandas 统计 dataframe 中每一列的非空值个数。这对于数据分析和处理非常重要,能够帮助我们更好地了解数据的完整性和质量,进而进行相应的数据清洗和预处理工作。通过 count()
方法,我们可以轻松地获取每一列的非空值个数,并在需要时进行进一步的筛选和分析。