pandas指定列求和

在数据分析中,经常需要对数据集中的某几列进行求和操作。Python的pandas库提供了非常方便的方法来实现这一功能。本文将详细介绍如何使用pandas库对指定列进行求和操作。
1. 导入pandas库
首先,我们需要导入pandas库,如果尚未安装pandas库,可以通过以下命令进行安装:
pip install pandas
导入pandas库的代码如下:
import pandas as pd
2. 创建示例数据集
接下来,我们创建一个示例数据集,包括学生姓名、语文成绩、数学成绩和英语成绩。示例数据集如下所示:
data = {
'姓名': ['张三', '李四', '王五', '赵六'],
'语文成绩': [90, 85, 88, 92],
'数学成绩': [80, 78, 85, 90],
'英语成绩': [85, 88, 92, 89]
}
df = pd.DataFrame(data)
print(df)
运行结果如下所示:
姓名 语文成绩 数学成绩 英语成绩
0 张三 90 80 85
1 李四 85 78 88
2 王五 88 85 92
3 赵六 92 90 89
3. 指定列求和
假设我们想要对语文成绩和数学成绩这两列进行求和操作,可以使用pandas的sum()方法来实现。代码如下:
sum_df = df[['语文成绩', '数学成绩']].sum()
print(sum_df)
运行结果如下所示:
语文成绩 355
数学成绩 333
dtype: int64
从结果可以看出,语文成绩列的总和为355,数学成绩列的总和为333。
4. 结论
通过本文的介绍,我们学习了如何使用pandas库对指定列进行求和操作。在实际数据分析中,这种操作非常常见,能够帮助我们更快地获取所需的统计信息。
极客笔记