Python – 计算Pandas DataFrame中某一列的标准差

Pandas是Python中常用的数据分析工具，它主要基于Numpy库构建，可以用于数据清洗、统计分析、数据可视化等多个应用场景。其中，DataFrame是Pandas中最常用的数据结构，类似于Excel表格，由多个列（column）组成，每个列可以是不同的数据类型，如数值型、字符串型、时间型等。对于一个DataFrame对象，我们经常需要对其进行数据分析，计算每一列的统计指标（如均值、标准差等）。本文将介绍如何计算Pandas DataFrame中某一列的标准差。

示例代码

首先，我们需要构建一个DataFrame对象作为示例数据。可以使用Pandas的DataFrame()函数构造，如下：

import pandas as pd
import numpy as np

df = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Cathy', 'David', 'Emily'],
    'Score': [75, 82, 89, 95, 66],
    'Age': [18, 20, 19, 22, 21]
})
print(df)

其中，df是一个包含3列的DataFrame对象，每一列的数据类型为object、int64和int64。运行上述代码，可以得到如下输出：

     Name  Score  Age
0   Alice     75   18
1     Bob     82   20
2   Cathy     89   19
3   David     95   22
4   Emily     66   21

现在，我们需要计算Score列的标准差。对于一个一维数组，可以使用Numpy库中的std()函数计算其标准差。在Pandas中，每一列可以看作是一个Series对象，因此可以使用Series对象的std()方法计算标准差。具体实现代码如下：

std_score = df['Score'].std()
print(f"Score列的标准差为：{std_score:.2f}")

其中，df['Score']表示取df的Score列，返回一个Series对象；.std()表示计算Series对象的标准差；:.2f表示格式化输出时保留两位小数。运行上述代码，可以得到如下输出：

Score列的标准差为：10.62

这说明Score列的标准差为10.62，即成绩波动较大。

完整代码

下面是完整的示例代码，包括示例数据的构造、标准差的计算和输出：

import pandas as pd
import numpy as np

df = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Cathy', 'David', 'Emily'],
    'Score': [75, 82, 89, 95, 66],
    'Age': [18, 20, 19, 22, 21]
})
print(df)

std_score = df['Score'].std()
print(f"Score列的标准差为：{std_score:.2f}")

结论

本文介绍了如何计算Pandas DataFrame中某一列的标准差。具体来说，我们可以通过df['column'].std()方法计算某一列的标准差，其中df是DataFrame对象，column是某一列的名称（字符串类型）。通过对DataFrame的各列进行标准差计算，我们可以得到有关数据分布的统计指标，为后续数据分析提供依据。