Python – 计算 Pandas DataFrame 的列值均值

在数据分析过程中，计算某列的均值值是常见的操作。Python 的 Pandas 库提供了方便的方式来计算DataFrame列值的均值。在本文中，我们将介绍使用 Pandas 计算 DataFrame 列均值的方法，并提供示例代码。

pandas.DataFrame.mean() 方法

Pandas 库中的 ‘mean()’ 方法可以用于计算 DataFrame 中数量类型数据列的均值。

import pandas as pd
data = {'name': ['John', 'Lisa', 'Michael', 'Guru', 'Sarah'],
        'age': [23, 34, 31, 56, 32], 
        'salary': [50000, 65000, 45000, 80000, 95000]}
df = pd.DataFrame(data)
print(df.mean())

在上面的示例代码中，我们定义了一个数据字典，包含每个人的名称、年龄和薪水。然后，我们使用Pandas的DataFrame函数构建数据框，再使用’mean()’方法计算数据框的列均值。输出的结果如下：

age          35.2
salary    67000.0
dtype: float64

由输出可知，age列的均值为35.2，salary列的均值为67000。

内置 mean() 方法可以对单个列或者多个列进行计算均值值。例如，我们要计算数据框df中salary列的均值，可以使用以下片段：

print(df['salary'].mean())

pandas.DataFrame.describe() 方法

另一个计算列均值的方法是使用 Pandas 的 ‘describe()’ 方法。除了均值，该方法还提供有关数据的统计概述，例如中位数、标准偏差和四分位数等。

import pandas as pd
data = {'name': ['John', 'Lisa', 'Michael', 'Guru', 'Sarah'],
        'age': [23, 34, 31, 56, 32], 
        'salary': [50000, 65000, 45000, 80000, 95000]}
df = pd.DataFrame(data)
print(df['salary'].describe())

在上面的示例代码中，我们使用’describe()’方法计算了salary列的均值、标准差、最小值、最大值、25%分位数、中位数和75%分位数。输出的结果如下：

count        5.00000
mean     67000.00000
std      19862.75819
min      45000.00000
25%      50000.00000
50%      65000.00000
75%      80000.00000
max      95000.00000
Name: salary, dtype: float64

由输出可知，salary列的均值为67000。

numpy.mean() 方法

除了 Pandas 库自身提供了计算 DataFrame 列均值的方法外，Numpy 库也提供了计算列均值的方法。 Numpy 库是科学计算的核心库，提供了很多快速的数学计算和统计函数。

import pandas as pd
import numpy as np
data = {'name': ['John', 'Lisa', 'Michael', 'Guru', 'Sarah'],
        'age': [23, 34, 31, 56, 32], 
        'salary': [50000, 65000, 45000, 80000, 95000]}
df = pd.DataFrame(data)
print(np.mean(df['salary']))

在上面的示例代码中，我们使用’np.mean()’方法计算了salary列的均值。输出的结果如下：

67000.0

由输出可知，salary列的均值为67000。

结论

在 Python 中，我们可以使用 Pandas 或 Numpy 库来计算 DataFrame 列均值。在 Pandas 库中，’mean()’ 和 ‘describe()’ 方法可以用于计算列均值和有关数据的统计概述。而在 Numpy 库中，’mean()’ 方法也可以用于计算列均值。这些方法非常方便，使得计算列均值成为了一项非常便捷的任务。无论你需要计算任何类型的数据的列均值，这些方法都可以满足你的需求。