Pandas GroupBy 创建新列：高效数据分组与列操作指南|极客笔记

Pandas GroupBy 创建新列：高效数据分组与列操作指南

在数据分析和处理中，Pandas 的 GroupBy 操作是一个强大的工具，它允许我们根据一个或多个列对数据进行分组，并在分组的基础上进行各种计算和操作。本文将详细介绍如何使用 Pandas GroupBy 创建新列，这是一个常见且有用的数据处理技巧。我们将探讨不同的场景和方法，以帮助您更好地理解和应用这一功能。

1. GroupBy 基础概念

在深入探讨如何使用 GroupBy 创建新列之前，让我们先回顾一下 GroupBy 的基本概念。

GroupBy 操作的核心思想是将数据集分割成多个组，然后对每个组应用某种函数。这个过程可以概括为”拆分-应用-组合”（Split-Apply-Combine）范式。

以下是一个简单的 GroupBy 示例：

import pandas as pd

# 创建示例数据框
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob'],
    'age': [25, 30, 35, 25, 30],
    'score': [80, 85, 90, 75, 95]
})

# 按 name 分组并计算平均分数
result = df.groupby('name')['score'].mean()

print("pandasdataframe.com - GroupBy 基础示例:")
print(result)

Output:

Pandas GroupBy 创建新列：高效数据分组与列操作指南

在这个例子中，我们按 ‘name’ 列对数据进行分组，然后计算每个人的平均分数。这展示了 GroupBy 的基本用法。

2. 使用 GroupBy 创建新列的基本方法

现在，让我们看看如何使用 GroupBy 创建新列。最常见的方法是使用 transform() 函数。

import pandas as pd

# 创建示例数据框
df = pd.DataFrame({
    'category': ['A', 'B', 'A', 'B', 'A'],
    'value': [10, 20, 30, 40, 50]
})

# 使用 GroupBy 和 transform 创建新列
df['category_mean'] = df.groupby('category')['value'].transform('mean')

print("pandasdataframe.com - 使用 GroupBy 创建新列:")
print(df)

Output:

Pandas GroupBy 创建新列：高效数据分组与列操作指南

在这个例子中，我们按 ‘category’ 列分组，然后计算每个类别的平均值，并将结果添加为新列 ‘category_mean’。transform() 函数确保结果的大小与原始数据框相匹配，这样我们就可以直接将结果赋值给新列。

3. 使用自定义函数创建新列

除了使用内置的聚合函数（如 mean、sum 等），我们还可以使用自定义函数来创建新列。这给了我们更大的灵活性。

import pandas as pd

# 创建示例数据框
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob'],
    'score': [80, 85, 90, 75, 95]
})

# 定义自定义函数
def score_diff(x):
    return x - x.mean()

# 使用自定义函数创建新列
df['score_diff'] = df.groupby('name')['score'].transform(score_diff)

print("pandasdataframe.com - 使用自定义函数创建新列:")
print(df)

Output:

Pandas GroupBy 创建新列：高效数据分组与列操作指南

在这个例子中，我们定义了一个自定义函数 score_diff，它计算每个分数与组平均分的差值。然后，我们使用 transform() 应用这个函数来创建新列 ‘score_diff’。

4. 使用多列进行分组

有时，我们需要根据多个列进行分组。Pandas 允许我们轻松地实现这一点。

import pandas as pd

# 创建示例数据框
df = pd.DataFrame({
    'department': ['IT', 'HR', 'IT', 'HR', 'IT'],
    'team': ['A', 'B', 'A', 'A', 'B'],
    'salary': [5000, 4000, 5500, 4200, 5200]
})

# 使用多列分组创建新列
df['avg_salary'] = df.groupby(['department', 'team'])['salary'].transform('mean')

print("pandasdataframe.com - 使用多列分组创建新列:")
print(df)

Output:

Pandas GroupBy 创建新列：高效数据分组与列操作指南

在这个例子中，我们按 ‘department’ 和 ‘team’ 两列进行分组，然后计算每个组的平均工资，并将结果添加为新列 ‘avg_salary’。

5. 创建多个新列

我们可以在一个操作中创建多个新列，这在需要计算多个统计量时非常有用。

import pandas as pd

# 创建示例数据框
df = pd.DataFrame({
    'product': ['A', 'B', 'A', 'B', 'A'],
    'sales': [100, 150, 200, 120, 180]
})

# 创建多个新列
df[['sales_mean', 'sales_max']] = df.groupby('product')['sales'].transform(['mean', 'max'])

print("pandasdataframe.com - 创建多个新列:")
print(df)

在这个例子中，我们同时创建了两个新列：’sales_mean’ 和 ‘sales_max’，分别表示每个产品的平均销售额和最高销售额。

6. 使用 agg() 函数创建新列

除了 transform()，我们还可以使用 agg() 函数来创建新列，尤其是当我们需要对不同列应用不同的聚合函数时。

import pandas as pd

# 创建示例数据框
df = pd.DataFrame({
    'category': ['A', 'B', 'A', 'B', 'A'],
    'value1': [10, 20, 30, 40, 50],
    'value2': [1, 2, 3, 4, 5]
})

# 使用 agg() 创建新列
result = df.groupby('category').agg({
    'value1': 'mean',
    'value2': 'sum'
}).reset_index()

df = df.merge(result, on='category', suffixes=('', '_agg'))

print("pandasdataframe.com - 使用 agg() 创建新列:")
print(df)

Output:

Pandas GroupBy 创建新列：高效数据分组与列操作指南

在这个例子中，我们对 ‘value1’ 列计算平均值，对 ‘value2’ 列计算总和，然后将结果合并回原始数据框。

7. 使用 apply() 进行更复杂的操作

对于更复杂的操作，我们可以使用 apply() 函数。这允许我们对每个组应用任意的 Python 函数。

import pandas as pd

# 创建示例数据框
df = pd.DataFrame({
    'group': ['A', 'B', 'A', 'B', 'A'],
    'value': [1, 2, 3, 4, 5]
})

# 定义复杂函数
def complex_operation(group):
    return pd.Series({
        'sum': group['value'].sum(),
        'mean': group['value'].mean(),
        'count': group['value'].count()
    })

# 使用 apply() 创建新列
result = df.groupby('group').apply(complex_operation).reset_index()
df = df.merge(result, on='group')

print("pandasdataframe.com - 使用 apply() 进行复杂操作:")
print(df)

在这个例子中，我们定义了一个复杂的函数，它同时计算和、平均值和计数。然后，我们使用 apply() 将这个函数应用到每个组，并将结果合并回原始数据框。

8. 处理时间序列数据

GroupBy 操作在处理时间序列数据时特别有用。我们可以按时间间隔分组，然后创建新的统计列。

import pandas as pd
import numpy as np

# 创建示例时间序列数据
dates = pd.date_range(start='2023-01-01', end='2023-12-31', freq='D')
df = pd.DataFrame({
    'date': dates,
    'value': np.random.randn(len(dates))
})

# 按月分组并创建新列
df['month'] = df['date'].dt.to_period('M')
df['monthly_mean'] = df.groupby('month')['value'].transform('mean')

print("pandasdataframe.com - 处理时间序列数据:")
print(df.head())

Output:

Pandas GroupBy 创建新列：高效数据分组与列操作指南

在这个例子中，我们创建了一个包含全年每日数据的数据框，然后按月分组并计算每月的平均值。

9. 使用 GroupBy 进行排名

GroupBy 还可以用于在组内进行排名，这在许多分析场景中非常有用。

import pandas as pd

# 创建示例数据框
df = pd.DataFrame({
    'group': ['A', 'B', 'A', 'B', 'A', 'B'],
    'score': [80, 85, 90, 75, 95, 70]
})

# 在组内进行排名
df['rank'] = df.groupby('group')['score'].rank(method='dense', ascending=False)

print("pandasdataframe.com - 使用 GroupBy 进行排名:")
print(df)

Output:

Pandas GroupBy 创建新列：高效数据分组与列操作指南

在这个例子中，我们对每个组内的分数进行排名。method='dense' 参数确保相同的分数获得相同的排名，而 ascending=False 表示高分排在前面。

10. 使用 GroupBy 进行累积计算

GroupBy 还可以用于执行累积计算，如累积和或累积计数。

import pandas as pd

# 创建示例数据框
df = pd.DataFrame({
    'group': ['A', 'B', 'A', 'B', 'A', 'B'],
    'value': [1, 2, 3, 4, 5, 6]
})

# 计算组内累积和
df['cumsum'] = df.groupby('group')['value'].cumsum()

print("pandasdataframe.com - 使用 GroupBy 进行累积计算:")
print(df)

Output:

Pandas GroupBy 创建新列：高效数据分组与列操作指南

在这个例子中，我们计算了每个组内的累积和。这对于跟踪随时间变化的累积值非常有用。

11. 使用 GroupBy 进行窗口计算

窗口计算允许我们在移动的数据子集上执行计算。这在时间序列分析中特别有用。

import pandas as pd

# 创建示例数据框
df = pd.DataFrame({
    'date': pd.date_range(start='2023-01-01', periods=10),
    'value': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
})

# 计算3天移动平均
df['moving_avg'] = df['value'].rolling(window=3).mean()

print("pandasdataframe.com - 使用 GroupBy 进行窗口计算:")
print(df)

Output:

Pandas GroupBy 创建新列：高效数据分组与列操作指南

在这个例子中，我们计算了一个3天的移动平均。这种技术可以用于平滑时间序列数据或识别趋势。

12. 处理缺失值

在使用 GroupBy 创建新列时，我们可能会遇到缺失值。了解如何处理这些缺失值很重要。

import pandas as pd
import numpy as np

# 创建包含缺失值的示例数据框
df = pd.DataFrame({
    'group': ['A', 'B', 'A', 'B', 'A'],
    'value': [1, np.nan, 3, 4, 5]
})

# 使用 GroupBy 创建新列，同时处理缺失值
df['group_mean'] = df.groupby('group')['value'].transform(lambda x: x.fillna(x.mean()))

print("pandasdataframe.com - 处理缺失值:")
print(df)

Output:

Pandas GroupBy 创建新列：高效数据分组与列操作指南

在这个例子中，我们在计算组平均值时，先用组内的平均值填充了缺失值。这确保了我们不会因为缺失值而丢失整个组的信息。

13. 使用 GroupBy 进行条件筛选

GroupBy 还可以用于基于组级别的条件进行数据筛选。

import pandas as pd

# 创建示例数据框
df = pd.DataFrame({
    'group': ['A', 'B', 'A', 'B', 'A', 'B'],
    'value': [1, 2, 3, 4, 5, 6]
})

# 筛选出组平均值大于3的记录
df['group_mean'] = df.groupby('group')['value'].transform('mean')
df_filtered = df[df['group_mean'] > 3]

print("pandasdataframe.com - 使用 GroupBy 进行条件筛选:")
print(df_filtered)

Output:

Pandas GroupBy 创建新列：高效数据分组与列操作指南

在这个例子中，我们首先计算了每个组的平均值，然后筛选出平均值大于3的记录。这种方法可以用于识别表现优秀的组或异常值。

14. 使用 GroupBy 进行数据规范化

数据规范化是数据预处理中的一个重要步骤，我们可以使用 GroupBy 来实现组内的数据规范化。

import pandas as pd

# 创建示例数据框
df = pd.DataFrame({
    'group': ['A', 'B', 'A', 'B', 'A'],
    'value': [1, 2, 3, 4, 5]
})

## 进行组内数据规范化
df['normalized'] = df.groupby('group')['value'].transform(lambda x: (x - x.min()) / (x.max() - x.min()))

print("pandasdataframe.com - 使用 GroupBy 进行数据规范化:")
print(df)

Output:

Pandas GroupBy 创建新列：高效数据分组与列操作指南

在这个例子中，我们对每个组内的数据进行了最小-最大规范化。这种方法可以确保不同组之间的数据具有可比性。

15. 使用 GroupBy 进行组间比较

GroupBy 可以用于创建新列，以比较组内值与整体或其他组的差异。

import pandas as pd

# 创建示例数据框
df = pd.DataFrame({
    'group': ['A', 'B', 'A', 'B', 'A'],
    'value': [10, 20, 30, 40, 50]
})

# 计算组平均值与总体平均值的差
df['group_mean'] = df.groupby('group')['value'].transform('mean')
df['overall_mean'] = df['value'].mean()
df['diff_from_overall'] = df['group_mean'] - df['overall_mean']

print("pandasdataframe.com - 使用 GroupBy 进行组间比较:")
print(df)

Output:

Pandas GroupBy 创建新列：高效数据分组与列操作指南

这个例子展示了如何计算每个组的平均值与整体平均值之间的差异。这种方法可以用于识别表现优秀或落后的组。

16. 使用 GroupBy 进行复杂的字符串操作

GroupBy 不仅限于数值计算，还可以用于复杂的字符串操作。

import pandas as pd

# 创建示例数据框
df = pd.DataFrame({
    'group': ['A', 'B', 'A', 'B', 'A'],
    'text': ['hello', 'world', 'pandas', 'is', 'awesome']
})

# 连接每个组的文本
df['concatenated'] = df.groupby('group')['text'].transform(lambda x: ' '.join(x))

print("pandasdataframe.com - 使用 GroupBy 进行复杂的字符串操作:")
print(df)

Output:

Pandas GroupBy 创建新列：高效数据分组与列操作指南

在这个例子中，我们将每个组内的文本连接成一个字符串。这种技术可以用于文本分析或特征工程。

17. 使用 GroupBy 进行日期操作

GroupBy 在处理日期和时间数据时也非常有用。

import pandas as pd

# 创建示例数据框
df = pd.DataFrame({
    'date': pd.date_range(start='2023-01-01', periods=10),
    'group': ['A', 'B'] * 5,
    'value': range(10)
})

# 计算每个组的最早和最晚日期
df['earliest_date'] = df.groupby('group')['date'].transform('min')
df['latest_date'] = df.groupby('group')['date'].transform('max')

print("pandasdataframe.com - 使用 GroupBy 进行日期操作:")
print(df)

Output:

Pandas GroupBy 创建新列：高效数据分组与列操作指南

这个例子展示了如何找出每个组的最早和最晚日期。这种方法可以用于分析数据的时间跨度或识别异常值。

18. 使用 GroupBy 进行分位数计算

分位数计算是统计分析中的一个重要工具，我们可以使用 GroupBy 来计算组内的分位数。

import pandas as pd
import numpy as np

# 创建示例数据框
df = pd.DataFrame({
    'group': ['A', 'B', 'A', 'B', 'A', 'B'] * 10,
    'value': np.random.randn(60)
})

# 计算每个组的中位数和四分位数
df['median'] = df.groupby('group')['value'].transform('median')
df['q1'] = df.groupby('group')['value'].transform(lambda x: x.quantile(0.25))
df['q3'] = df.groupby('group')['value'].transform(lambda x: x.quantile(0.75))

print("pandasdataframe.com - 使用 GroupBy 进行分位数计算:")
print(df.head())

Output:

Pandas GroupBy 创建新列：高效数据分组与列操作指南

这个例子展示了如何计算每个组的中位数和四分位数。这种方法可以用于了解数据的分布情况和识别异常值。

19. 使用 GroupBy 进行组合统计

有时我们需要同时计算多个统计量并将它们组合成一个新列。

import pandas as pd

# 创建示例数据框
df = pd.DataFrame({
    'group': ['A', 'B', 'A', 'B', 'A'],
    'value1': [1, 2, 3, 4, 5],
    'value2': [10, 20, 30, 40, 50]
})

# 计算组合统计
df['combined_stat'] = df.groupby('group').apply(
    lambda x: f"Mean: {x['value1'].mean():.2f}, Sum: {x['value2'].sum()}"
).reset_index(level=0, drop=True)

print("pandasdataframe.com - 使用 GroupBy 进行组合统计:")
print(df)

在这个例子中，我们为每个组计算了 ‘value1’ 的平均值和 ‘value2’ 的总和，并将它们组合成一个字符串。这种方法可以用于创建摘要统计或报告。

20. 使用 GroupBy 进行动态列创建

有时，我们可能需要根据数据动态创建新列。GroupBy 可以帮助我们实现这一点。

import pandas as pd

# 创建示例数据框
df = pd.DataFrame({
    'group': ['A', 'B', 'A', 'B', 'A'],
    'subgroup': ['X', 'Y', 'X', 'Y', 'Z'],
    'value': [1, 2, 3, 4, 5]
})

# 动态创建新列
for subgroup in df['subgroup'].unique():
    df[f'is_{subgroup}'] = df.groupby('group')['subgroup'].transform(
        lambda x: (x == subgroup).astype(int)
    )

print("pandasdataframe.com - 使用 GroupBy 进行动态列创建:")
print(df)

Output:

Pandas GroupBy 创建新列：高效数据分组与列操作指南