Pandas中使用agg()函数计算平均值
Pandas是一个强大的Python数据分析库,它提供了丰富的数据结构和数据操作方法,使得数据分析变得更加简单高效。在数据分析中,经常需要对数据集进行汇总统计,其中计算平均值是最常见的操作之一。本文将详细介绍如何在Pandas中使用agg()
函数来计算平均值,并通过多个示例展示其用法。
1. 理解agg()函数
在Pandas中,agg()
函数是一个非常灵活的聚合函数,它允许对DataFrame或Series对象应用一个或多个操作。使用agg()
函数可以简化数据聚合的过程,特别是当需要对数据集进行多种统计计算时。
示例代码1:基本使用
import pandas as pd
# 创建一个DataFrame
data = {
'A': [1, 2, 3],
'B': [4, 5, 6],
'C': [7, 8, 9]
}
df = pd.DataFrame(data)
# 使用agg()计算所有列的平均值
result = df.agg('mean')
print(result)
Output:
示例代码2:对指定列使用agg()
import pandas as pd
# 创建一个DataFrame
data = {
'A': [10, 20, 30],
'B': [40, 50, 60],
'C': [70, 80, 90]
}
df = pd.DataFrame(data)
# 对列A使用agg()计算平均值
result = df['A'].agg('mean')
print(result)
Output:
2. 在agg()中使用自定义函数
除了使用内置的统计函数,agg()
还支持传入自定义函数,这使得数据聚合更加灵活。
示例代码3:使用自定义函数计算平均值
import pandas as pd
# 创建一个DataFrame
data = {
'A': [100, 200, 300],
'B': [400, 500, 600],
'C': [700, 800, 900]
}
df = pd.DataFrame(data)
# 定义一个计算平均值的函数
def custom_mean(column):
return sum(column) / len(column)
# 使用自定义函数计算A列的平均值
result = df['A'].agg(custom_mean)
print(result)
Output:
3. 对DataFrame的多个列使用agg()
agg()
函数可以同时对DataFrame的多个列应用一个或多个函数。
示例代码4:对多个列应用同一函数
import pandas as pd
# 创建一个DataFrame
data = {
'A': [1000, 2000, 3000],
'B': [4000, 5000, 6000],
'C': [7000, 8000, 9000]
}
df = pd.DataFrame(data)
# 对多个列同时计算平均值
result = df[['A', 'B']].agg('mean')
print(result)
Output: