Pandas DataFrame中计算列的均值时指定“跳过NA”

在本文中，我们将介绍如何在Pandas DataFrame中计算列的均值时指定“跳过NA”。
阅读更多：Pandas 教程

Pandas DataFrame

首先，让我们来介绍一下Pandas DataFrame。Pandas是一种开源Python库，用于数据处理和数据分析。它提供了许多数据结构和数据操作函数，其中最常用的是DataFrame。
DataFrame是一个二维的表格数据结构，其中每列可以具有不同的数据类型（数字，字符串，布尔值等）。每列中的数据通常表示一个特定的变量，每行则表示一个观察值。数据框架可以从多种来源创建，例如CSV文件、Excel文件、SQL数据库等。
以下是一个示例DataFrame：

import pandas as pd

# Creating DataFrame manually
df = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie', 'David'],
                   'Age': [25, 30, 35, 40]})
print(df)

输出：

       Name  Age
0     Alice   25
1       Bob   30
2   Charlie   35
3     David   40

计算DataFrame列的均值

要计算DataFrame列的平均值，可以使用mean（）函数。以下是一个示例：

import pandas as pd

# Creating DataFrame manually
df = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie', 'David'],
                   'Age': [25, 30, 35, 40]})

# Computing mean of 'Age' column
mean_age = df['Age'].mean()
print(mean_age)

输出：

32.5

这将计算“Age”列的平均值，并将其存储在“mean_age”变量中。如您所见，计算DataFrame列的平均值非常简单，只需使用.mean（）函数并指定列名称即可。

指定“跳过NA”

默认情况下，Pandas将NaN（Not a Number）值视为无效或缺失的值，并将其作为0计算。这可能会导致丢失或错误的数据。
例如，考虑以下包含NaN值的DataFrame：

import pandas as pd
import numpy as np

# Creating DataFrame manually
df = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie', 'David'],
                   'Age': [25, 30, np.nan, 40]})

# Computing mean of 'Age' column
mean_age = df['Age'].mean()
print(mean_age)

输出：

31.666666666666668

在此示例中，“Charlie”的年龄值为NaN，因此它被视为无效值，并被处理为0。但是，这样会导致平均年龄出现错误。
为了解决这个问题，我们可以指定“跳过NA”。这将导致Pandas在计算平均值时忽略所有的NaN值。
以下是示例代码：

import pandas as pd
import numpy as np

# Creating DataFrame manually
df = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie', 'David'],
                   'Age': [25, 30, np.nan, 40]})

# Computing mean of 'Age' column, skipping NaN values
mean_age = df['Age'].mean(skipna=True)
print(mean_age)

输出：