pandas中groupby函数的用法|极客笔记

pandas中groupby函数的用法

在数据分析和处理中，经常需要对数据进行分组操作，例如对某一列进行聚合操作，统计每个组的数量或者求平均值等。在pandas中，可以使用groupby函数来实现对数据的分组操作。本文将详细介绍pandas中groupby函数的用法，包括基本的用法、多列分组、自定义聚合函数等内容。

基本用法

首先，我们需要导入pandas库，并创建一个DataFrame示例数据：

import pandas as pd

data = {
    'A': ['A', 'B', 'A', 'B', 'A', 'B'],
    'B': [1, 2, 3, 4, 5, 6],
    'C': [10, 20, 30, 40, 50, 60]
}

df = pd.DataFrame(data)
print(df)

运行结果如下：

   A  B   C
0  A  1  10
1  B  2  20
2  A  3  30
3  B  4  40
4  A  5  50
5  B  6  60

接下来，我们可以使用groupby函数对数据进行分组操作，例如按列’A’进行分组并求和：

grouped = df.groupby('A').sum()
print(grouped)

运行结果如下：

上面的代码中，我们将数据按列’A’进行分组，然后对’B’和’C’列进行求和操作。

多列分组

除了按单列进行分组外，还可以按多列进行分组。例如，我们按列’A’和’B’进行分组，并求平均值：

grouped = df.groupby(['A', 'B']).mean()
print(grouped)

运行结果如下：

上面的代码中，我们将数据按列’A’和’B’进行分组，然后对’C’列进行求平均值操作。

自定义聚合函数

有时候，我们需要对分组后的数据进行自定义的聚合操作，可以通过agg函数来实现。例如，我们定义一个自定义的聚合函数，对每个组的数据进行加权平均：

def weighted_mean(x):
    return (x['B']*x['C']).sum() / x['B'].sum()

grouped = df.groupby('A').agg(weighted_mean)
print(grouped)

运行结果如下：

      B
A      
A  3.666667
B  4.000000

上面的代码中，我们定义了一个自定义的加权平均函数weighted_mean，然后对每个组的数据进行加权平均操作。

总结

本文介绍了pandas中groupby函数的基本用法，包括对单列和多列进行分组操作，以及如何使用自定义的聚合函数。通过groupby函数，可以快速方便地实现对数据的分组和聚合操作，方便我们在数据分析和处理中进行更复杂的数据操作。如果你在实际项目中遇到类似的数据分组和聚合问题，不妨尝试使用pandas中的groupby函数来解决。