Python – 计算 Pandas DataFrame 的列值均值
在数据分析过程中,计算某列的均值值是常见的操作。Python 的 Pandas 库提供了方便的方式来计算DataFrame列值的均值。在本文中,我们将介绍使用 Pandas 计算 DataFrame 列均值的方法,并提供示例代码。
pandas.DataFrame.mean() 方法
Pandas 库中的 ‘mean()’ 方法可以用于计算 DataFrame 中数量类型数据列的均值。
import pandas as pd
data = {'name': ['John', 'Lisa', 'Michael', 'Guru', 'Sarah'],
'age': [23, 34, 31, 56, 32],
'salary': [50000, 65000, 45000, 80000, 95000]}
df = pd.DataFrame(data)
print(df.mean())
在上面的示例代码中,我们定义了一个数据字典,包含每个人的名称、年龄和薪水。然后,我们使用Pandas的DataFrame函数构建数据框,再使用’mean()’方法计算数据框的列均值。输出的结果如下:
age 35.2
salary 67000.0
dtype: float64
由输出可知,age列的均值为35.2,salary列的均值为67000。
内置 mean() 方法可以对单个列或者多个列进行计算均值值。例如,我们要计算数据框df中salary列的均值,可以使用以下片段:
print(df['salary'].mean())
pandas.DataFrame.describe() 方法
另一个计算列均值的方法是使用 Pandas 的 ‘describe()’ 方法。除了均值,该方法还提供有关数据的统计概述,例如中位数、标准偏差和四分位数等。
import pandas as pd
data = {'name': ['John', 'Lisa', 'Michael', 'Guru', 'Sarah'],
'age': [23, 34, 31, 56, 32],
'salary': [50000, 65000, 45000, 80000, 95000]}
df = pd.DataFrame(data)
print(df['salary'].describe())
在上面的示例代码中,我们使用’describe()’方法计算了salary列的均值、标准差、最小值、最大值、25%分位数、中位数和75%分位数。输出的结果如下:
count 5.00000
mean 67000.00000
std 19862.75819
min 45000.00000
25% 50000.00000
50% 65000.00000
75% 80000.00000
max 95000.00000
Name: salary, dtype: float64
由输出可知,salary列的均值为67000。
numpy.mean() 方法
除了 Pandas 库自身提供了计算 DataFrame 列均值的方法外,Numpy 库也提供了计算列均值的方法。 Numpy 库是科学计算的核心库,提供了很多快速的数学计算和统计函数。
import pandas as pd
import numpy as np
data = {'name': ['John', 'Lisa', 'Michael', 'Guru', 'Sarah'],
'age': [23, 34, 31, 56, 32],
'salary': [50000, 65000, 45000, 80000, 95000]}
df = pd.DataFrame(data)
print(np.mean(df['salary']))
在上面的示例代码中,我们使用’np.mean()’方法计算了salary列的均值。输出的结果如下:
67000.0
由输出可知,salary列的均值为67000。
结论
在 Python 中,我们可以使用 Pandas 或 Numpy 库来计算 DataFrame 列均值。 在 Pandas 库中,’mean()’ 和 ‘describe()’ 方法可以用于计算列均值和有关数据的统计概述。而在 Numpy 库中,’mean()’ 方法也可以用于计算列均值。这些方法非常方便,使得计算列均值成为了一项非常便捷的任务。无论你需要计算任何类型的数据的列均值,这些方法都可以满足你的需求。