Pandas GroupBy：如何使用分组聚合并添加求和列|极客笔记

Pandas GroupBy：如何使用分组聚合并添加求和列

Pandas是Python中用于数据分析和处理的强大库，其中GroupBy操作是一个非常有用的功能。本文将详细介绍如何使用Pandas的GroupBy功能进行分组聚合，并添加求和列。我们将探讨GroupBy的基本概念、常用方法、以及如何在实际应用中灵活运用这些技巧。

1. GroupBy的基本概念

GroupBy操作允许我们将数据按照某个或某些列进行分组，然后对每个分组应用聚合函数。这在数据分析中非常有用，可以帮助我们快速了解数据的分布和特征。

让我们从一个简单的例子开始：

import pandas as pd

# 创建示例数据
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob'],
    'city': ['New York', 'London', 'Paris', 'New York', 'London'],
    'sales': [100, 200, 300, 150, 250]
}
df = pd.DataFrame(data)

# 按name分组并计算sales的总和
grouped = df.groupby('name')['sales'].sum()

print("pandasdataframe.com - GroupBy结果:")
print(grouped)

Output:

Pandas GroupBy：如何使用分组聚合并添加求和列

在这个例子中，我们首先创建了一个包含名字、城市和销售额的DataFrame。然后，我们使用groupby('name')按名字分组，并计算每个人的总销售额。

2. 多列分组

有时，我们需要按多个列进行分组。Pandas允许我们轻松地实现这一点：

import pandas as pd

# 创建示例数据
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob'],
    'city': ['New York', 'London', 'Paris', 'New York', 'London'],
    'category': ['A', 'B', 'A', 'B', 'A'],
    'sales': [100, 200, 300, 150, 250]
}
df = pd.DataFrame(data)

# 按name和city分组并计算sales的总和
grouped = df.groupby(['name', 'city'])['sales'].sum()

print("pandasdataframe.com - 多列分组结果:")
print(grouped)

Output:

Pandas GroupBy：如何使用分组聚合并添加求和列

在这个例子中，我们按名字和城市进行分组，这样可以得到每个人在每个城市的销售总额。

3. 使用agg()方法应用多个聚合函数

GroupBy对象的agg()方法允许我们同时应用多个聚合函数：

import pandas as pd

# 创建示例数据
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob'],
    'city': ['New York', 'London', 'Paris', 'New York', 'London'],
    'sales': [100, 200, 300, 150, 250]
}
df = pd.DataFrame(data)

# 按name分组并应用多个聚合函数
grouped = df.groupby('name')['sales'].agg(['sum', 'mean', 'max', 'min'])

print("pandasdataframe.com - 多个聚合函数结果:")
print(grouped)

Output:

Pandas GroupBy：如何使用分组聚合并添加求和列

这个例子展示了如何同时计算每个人的销售总额、平均值、最大值和最小值。

4. 添加求和列

现在，让我们看看如何在分组后添加一个新的求和列：

import pandas as pd

# 创建示例数据
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob'],
    'city': ['New York', 'London', 'Paris', 'New York', 'London'],
    'sales': [100, 200, 300, 150, 250]
}
df = pd.DataFrame(data)

# 按name分组并计算sales的总和
df['total_sales'] = df.groupby('name')['sales'].transform('sum')

print("pandasdataframe.com - 添加求和列结果:")
print(df)

Output:

Pandas GroupBy：如何使用分组聚合并添加求和列

在这个例子中，我们使用transform()方法创建了一个新列’total_sales’，它包含了每个人的总销售额。注意，这个新列会对每个人的所有行重复显示相同的总和值。

5. 使用自定义聚合函数

除了内置的聚合函数，我们还可以使用自定义函数进行聚合：

import pandas as pd

# 创建示例数据
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob'],
    'city': ['New York', 'London', 'Paris', 'New York', 'London'],
    'sales': [100, 200, 300, 150, 250]
}
df = pd.DataFrame(data)

# 自定义聚合函数
def sales_range(x):
    return x.max() - x.min()

# 应用自定义函数
grouped = df.groupby('name')['sales'].agg(sales_range)

print("pandasdataframe.com - 自定义聚合函数结果:")
print(grouped)

Output:

Pandas GroupBy：如何使用分组聚合并添加求和列

这个例子展示了如何创建一个自定义函数来计算每个人的销售范围（最大值减最小值）。

6. 重置索引

在进行GroupBy操作后，结果通常会有一个多级索引。我们可以使用reset_index()方法将其转换为普通的DataFrame：

import pandas as pd

# 创建示例数据
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob'],
    'city': ['New York', 'London', 'Paris', 'New York', 'London'],
    'sales': [100, 200, 300, 150, 250]
}
df = pd.DataFrame(data)

# 按name和city分组，计算sales的总和，然后重置索引
grouped = df.groupby(['name', 'city'])['sales'].sum().reset_index()

print("pandasdataframe.com - 重置索引结果:")
print(grouped)

Output:

Pandas GroupBy：如何使用分组聚合并添加求和列

这个操作将分组结果转换为一个更容易处理的格式，特别是当我们需要进行进一步的数据处理时。

7. 使用as_index参数

另一种避免多级索引的方法是在groupby()函数中使用as_index=False参数：

import pandas as pd

# 创建示例数据
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob'],
    'city': ['New York', 'London', 'Paris', 'New York', 'London'],
    'sales': [100, 200, 300, 150, 250]
}
df = pd.DataFrame(data)

# 使用as_index=False
grouped = df.groupby(['name', 'city'], as_index=False)['sales'].sum()

print("pandasdataframe.com - as_index=False结果:")
print(grouped)

Output:

Pandas GroupBy：如何使用分组聚合并添加求和列

这种方法直接返回一个普通的DataFrame，而不是带有多级索引的Series。

8. 对多个列进行聚合

我们可以同时对多个列应用不同的聚合函数：

import pandas as pd

# 创建示例数据
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob'],
    'city': ['New York', 'London', 'Paris', 'New York', 'London'],
    'sales': [100, 200, 300, 150, 250],
    'units': [10, 20, 30, 15, 25]
}
df = pd.DataFrame(data)

# 对多个列应用不同的聚合函数
grouped = df.groupby('name').agg({
    'sales': 'sum',
    'units': 'mean'
})

print("pandasdataframe.com - 多列聚合结果:")
print(grouped)

Output:

Pandas GroupBy：如何使用分组聚合并添加求和列

在这个例子中，我们对’sales’列计算总和，对’units’列计算平均值。

9. 使用groupby()和apply()

apply()方法允许我们对每个分组应用更复杂的操作：

import pandas as pd

# 创建示例数据
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob'],
    'city': ['New York', 'London', 'Paris', 'New York', 'London'],
    'sales': [100, 200, 300, 150, 250]
}
df = pd.DataFrame(data)

# 定义一个函数来应用到每个分组
def top_sale(group):
    return group.loc[group['sales'].idxmax()]

# 使用apply()方法
result = df.groupby('name').apply(top_sale)

print("pandasdataframe.com - apply()方法结果:")
print(result)

这个例子展示了如何找出每个人的最高销售记录。

10. 使用filter()方法

filter()方法允许我们基于某些条件筛选分组：

import pandas as pd

# 创建示例数据
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob'],
    'city': ['New York', 'London', 'Paris', 'New York', 'London'],
    'sales': [100, 200, 300, 150, 250]
}
df = pd.DataFrame(data)

# 使用filter()方法筛选总销售额大于300的分组
filtered = df.groupby('name').filter(lambda x: x['sales'].sum() > 300)

print("pandasdataframe.com - filter()方法结果:")
print(filtered)

Output:

Pandas GroupBy：如何使用分组聚合并添加求和列

这个例子筛选出了总销售额超过300的人的所有记录。

11. 使用transform()进行复杂操作

transform()方法不仅可以用于简单的聚合，还可以用于更复杂的操作：

import pandas as pd

# 创建示例数据
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob'],
    'city': ['New York', 'London', 'Paris', 'New York', 'London'],
    'sales': [100, 200, 300, 150, 250]
}
df = pd.DataFrame(data)

# 使用transform()计算每个人的销售占比
df['sales_ratio'] = df.groupby('name')['sales'].transform(lambda x: x / x.sum())

print("pandasdataframe.com - transform()复杂操作结果:")
print(df)

Output:

Pandas GroupBy：如何使用分组聚合并添加求和列

这个例子计算了每个人的每笔销售占其总销售的比例。

12. 处理缺失值

在进行GroupBy操作时，我们可能需要处理缺失值：

import pandas as pd
import numpy as np

# 创建包含缺失值的示例数据
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob'],
    'city': ['New York', 'London', 'Paris', 'New York', 'London'],
    'sales': [100, np.nan, 300, 150, 250]
}
df = pd.DataFrame(data)

# 使用skipna参数处理缺失值
grouped = df.groupby('name')['sales'].sum(skipna=False)

print("pandasdataframe.com - 处理缺失值结果:")
print(grouped)

在这个例子中，我们使用skipna=False来保留缺失值，而不是默认忽略它们。

13. 使用get_group()方法

get_group()方法允许我们获取特定分组的数据：

import pandas as pd

# 创建示例数据
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob'],
    'city': ['New York', 'London', 'Paris', 'New York', 'London'],
    'sales': [100, 200, 300, 150, 250]
}
df = pd.DataFrame(data)

# 使用get_group()获取特定分组
grouped = df.groupby('name')
alice_group = grouped.get_group('Alice')

print("pandasdataframe.com - get_group()方法结果:")
print(alice_group)

Output:

Pandas GroupBy：如何使用分组聚合并添加求和列

这个例子展示了如何获取Alice的所有记录。

14. 使用ngroup()方法

ngroup()方法可以为每个分组分配一个唯一的整数标识：

import pandas as pd

# 创建示例数据
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob'],
    'city': ['New York', 'London', 'Paris', 'New York', 'London'],
    'sales': [100, 200, 300, 150, 250]
}
df = pd.DataFrame(data)

# 使用ngroup()方法
df['group_id'] = df.groupby('name').ngroup()

print("pandasdataframe.com - ngroup()方法结果:")
print(df)

Output:

Pandas GroupBy：如何使用分组聚合并添加求和列

这个方法在我们需要为每个分组分配一个唯一标识符时非常有用。

15. 使用size()方法

size()方法可以计算每个分组的大小：

import pandas as pd

# 创建示例数据
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob'],
    'city': ['New York', 'London', 'Paris', 'New York', 'London'],
    'sales': [100, 200, 300, 150, 250]
}
df = pd.DataFrame(data)

# 使用size()方法
group_sizes = df.groupby('name').size()

print("pandasdataframe.com - size()方法结果:")
print(group_sizes)

Output:

Pandas GroupBy：如何使用分组聚合并添加求和列

这个方法可以帮助我们快速了解每个分组包含多少条记录。

结论

Pandas的GroupBy功能是一个强大的数据分析工具，它允许我们以灵活的方式对数据进行分组、聚合和分析。通过本文介绍的各种方法和技巧，我们可以更有效地处理复杂的数据集，提取有价值的信息。

以下是一些关于使用Pandas GroupBy的最佳实践和注意事项：

性能考虑：对于大型数据集，GroupBy操作可能会比较耗时。在这种情况下，可以考虑使用更高效的方法，如先对数据进行排序，然后使用groupby()的sort=False参数。
内存使用：GroupBy操作可能会占用大量内存，特别是在处理大型数据集时。如果遇到内存问题，可以考虑使用迭代器方法，如groupby().apply()的替代方案groupby().rolling()。
数据类型：确保用于分组的列的数据类型是正确的。例如，如果要按日期分组，确保日期列的类型是datetime。
多级索引：在处理多级索引时要格外小心，确保正确理解和处理索引级别。
缺失值：在进行GroupBy操作时，要注意如何处理缺失值。可以使用dropna()方法在分组前删除缺失值，或者使用fillna()方法填充缺失值。

让我们再看几个高级应用的例子：

16. 使用groupby()和cut()进行分箱操作

有时我们需要将连续数据分成几个区间进行分析，这时可以结合使用cut()和groupby()：

import pandas as pd

# 创建示例数据
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
    'age': [25, 30, 35, 40, 45],
    'salary': [50000, 60000, 75000, 90000, 100000]
}
df = pd.DataFrame(data)

# 使用cut()创建年龄组，然后按年龄组分组计算平均工资
df['age_group'] = pd.cut(df['age'], bins=[20, 30, 40, 50], labels=['20-30', '31-40', '41-50'])
result = df.groupby('age_group')['salary'].mean()

print("pandasdataframe.com - 分箱操作结果:")
print(result)

这个例子展示了如何将年龄分成几个区间，然后计算每个年龄组的平均工资。

17. 使用groupby()和rolling()进行滚动计算

我们可以结合使用groupby()和rolling()来进行分组的滚动计算：

import pandas as pd

# 创建示例数据
data = {
    'date': pd.date_range(start='2023-01-01', periods=10),
    'name': ['Alice', 'Bob'] * 5,
    'sales': [100, 150, 200, 120, 180, 220, 130, 170, 190, 210]
}
df = pd.DataFrame(data)

# 按name分组，然后计算3天滚动平均销售额
df['rolling_avg'] = df.groupby('name')['sales'].rolling(window=3).mean().reset_index(0, drop=True)

print("pandasdataframe.com - 滚动计算结果:")
print(df)

Output:

Pandas GroupBy：如何使用分组聚合并添加求和列

这个例子展示了如何计算每个人的3天滚动平均销售额。

18. 使用groupby()和shift()进行时间序列分析

在时间序列分析中，我们经常需要计算同比或环比增长率。可以使用groupby()和shift()来实现：

import pandas as pd

# 创建示例数据
data = {
    'date': pd.date_range(start='2023-01-01', periods=10),
    'name': ['Alice', 'Bob'] * 5,
    'sales': [100, 150, 110, 160, 120, 170, 130, 180, 140, 190]
}
df = pd.DataFrame(data)

# 计算每个人的销售额同比增长率
df['growth_rate'] = df.groupby('name')['sales'].pct_change()

print("pandasdataframe.com - 时间序列分析结果:")
print(df)

Output:

Pandas GroupBy：如何使用分组聚合并添加求和列

这个例子计算了每个人的销售额相对于上一次的增长率。

19. 使用groupby()和cumsum()进行累计计算

累计计算在许多场景下都很有用，比如计算累计销售额：

import pandas as pd

# 创建示例数据
data = {
    'date': pd.date_range(start='2023-01-01', periods=10),
    'name': ['Alice', 'Bob'] * 5,
    'sales': [100, 150, 200, 120, 180, 220, 130, 170, 190, 210]
}
df = pd.DataFrame(data)

# 计算每个人的累计销售额
df['cumulative_sales'] = df.groupby('name')['sales'].cumsum()

print("pandasdataframe.com - 累计计算结果:")
print(df)

Output:

Pandas GroupBy：如何使用分组聚合并添加求和列

这个例子展示了如何计算每个人的累计销售额。

20. 使用groupby()和agg()进行多列多函数聚合

有时我们需要对多个列应用不同的聚合函数，并给结果列命名：

import pandas as pd

# 创建示例数据
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob'],
    'city': ['New York', 'London', 'Paris', 'New York', 'London'],
    'sales': [100, 200, 300, 150, 250],
    'units': [10, 20, 30, 15, 25]
}
df = pd.DataFrame(data)

# 多列多函数聚合
result = df.groupby('name').agg({
    'sales': ['sum', 'mean'],
    'units': ['max', 'min']
}).reset_index()

# 重命名列
result.columns = ['name', 'total_sales', 'avg_sales', 'max_units', 'min_units']

print("pandasdataframe.com - 多列多函数聚合结果:")
print(result)

Output:

Pandas GroupBy：如何使用分组聚合并添加求和列