Pandas GroupBy 和计算所有列平均值的全面指南|极客笔记

Pandas GroupBy 和计算所有列平均值的全面指南

Pandas 是一个强大的数据处理和分析库，其中 GroupBy 操作和计算平均值是常见的数据分析任务。本文将深入探讨如何使用 Pandas 的 GroupBy 功能对数据进行分组，并计算所有列的平均值。我们将通过详细的解释和实际示例来帮助您掌握这些技术，提高您的数据分析效率。

1. Pandas GroupBy 简介

GroupBy 是 Pandas 中一个非常重要的功能，它允许我们根据一个或多个列对数据进行分组，然后对每个组应用各种聚合函数。这种操作在数据分析中非常常见，因为它可以帮助我们快速了解数据的不同子集的特征。

让我们从一个简单的例子开始：

import pandas as pd

# 创建示例数据
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob'],
    'age': [25, 30, 35, 25, 31],
    'score': [85, 92, 78, 88, 95],
    'website': ['pandasdataframe.com'] * 5
}
df = pd.DataFrame(data)

# 按 name 列分组并计算 age 和 score 的平均值
grouped = df.groupby('name').mean()
print(grouped)

在这个例子中，我们创建了一个包含姓名、年龄和分数的 DataFrame，然后按姓名分组并计算年龄和分数的平均值。这个操作会为每个唯一的姓名创建一个组，并计算该组内所有数值列的平均值。

2. 计算所有列的平均值

有时，我们可能需要计算 DataFrame 中所有数值列的平均值。Pandas 提供了几种方法来实现这一目标。

2.1 使用 mean() 方法

最直接的方法是使用 DataFrame 的 mean() 方法：

import pandas as pd

# 创建示例数据
data = {
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 30, 40, 50],
    'C': [100, 200, 300, 400, 500],
    'website': ['pandasdataframe.com'] * 5
}
df = pd.DataFrame(data)

# 计算所有数值列的平均值
averages = df.mean()
print(averages)

这个方法会自动排除非数值列（如 ‘website’），并计算所有数值列的平均值。

2.2 使用 select_dtypes() 方法

如果您想更明确地指定要计算平均值的列，可以使用 select_dtypes() 方法：

import pandas as pd
import numpy as np

# 创建示例数据
data = {
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 30, 40, 50],
    'C': [100, 200, 300, 400, 500],
    'D': ['a', 'b', 'c', 'd', 'e'],
    'website': ['pandasdataframe.com'] * 5
}
df = pd.DataFrame(data)

# 选择数值列并计算平均值
numeric_cols = df.select_dtypes(include=[np.number])
averages = numeric_cols.mean()
print(averages)

Output:

Pandas GroupBy 和计算所有列平均值的全面指南

这个方法可以帮助您更精确地控制要包含在计算中的列。

3. GroupBy 和计算所有列平均值的结合

现在，让我们将 GroupBy 操作和计算所有列平均值结合起来。这在处理复杂的数据集时特别有用。

3.1 基本的 GroupBy 和平均值计算

import pandas as pd

# 创建示例数据
data = {
    'category': ['A', 'B', 'A', 'B', 'A'],
    'value1': [10, 20, 15, 25, 30],
    'value2': [100, 200, 150, 250, 300],
    'website': ['pandasdataframe.com'] * 5
}
df = pd.DataFrame(data)

# 按 category 分组并计算所有数值列的平均值
grouped_avg = df.groupby('category').mean()
print(grouped_avg)

这个例子展示了如何按类别分组并计算每个组内所有数值列的平均值。

3.2 处理多个分组列

有时，我们可能需要根据多个列进行分组：

import pandas as pd

# 创建示例数据
data = {
    'category': ['A', 'B', 'A', 'B', 'A'],
    'subcategory': ['X', 'Y', 'X', 'Y', 'Z'],
    'value1': [10, 20, 15, 25, 30],
    'value2': [100, 200, 150, 250, 300],
    'website': ['pandasdataframe.com'] * 5
}
df = pd.DataFrame(data)

# 按多个列分组并计算平均值
grouped_avg = df.groupby(['category', 'subcategory']).mean()
print(grouped_avg)

这个例子展示了如何按多个列进行分组，并计算每个组合的平均值。

3.3 使用 agg() 方法计算多个聚合

如果您想同时计算多个聚合函数，可以使用 agg() 方法：

import pandas as pd

# 创建示例数据
data = {
    'category': ['A', 'B', 'A', 'B', 'A'],
    'value1': [10, 20, 15, 25, 30],
    'value2': [100, 200, 150, 250, 300],
    'website': ['pandasdataframe.com'] * 5
}
df = pd.DataFrame(data)

# 按 category 分组并计算多个聚合
grouped_stats = df.groupby('category').agg(['mean', 'max', 'min'])
print(grouped_stats)

这个例子展示了如何同时计算每个组的平均值、最大值和最小值。

4. 高级 GroupBy 技巧

4.1 使用自定义函数

您可以使用自定义函数来执行更复杂的计算：

import pandas as pd

# 创建示例数据
data = {
    'category': ['A', 'B', 'A', 'B', 'A'],
    'value1': [10, 20, 15, 25, 30],
    'value2': [100, 200, 150, 250, 300],
    'website': ['pandasdataframe.com'] * 5
}
df = pd.DataFrame(data)

# 定义自定义函数
def custom_mean(x):
    return x.mean() * 2

# 使用自定义函数
grouped_custom = df.groupby('category').agg(custom_mean)
print(grouped_custom)

这个例子展示了如何使用自定义函数来计算每个组的平均值的两倍。

4.2 处理缺失值

在处理实际数据时，我们经常会遇到缺失值。Pandas 提供了多种方法来处理这种情况：

import pandas as pd
import numpy as np

# 创建包含缺失值的示例数据
data = {
    'category': ['A', 'B', 'A', 'B', 'A'],
    'value1': [10, np.nan, 15, 25, 30],
    'value2': [100, 200, np.nan, 250, 300],
    'website': ['pandasdataframe.com'] * 5
}
df = pd.DataFrame(data)

# 计算平均值，忽略缺失值
grouped_avg = df.groupby('category').mean()
print(grouped_avg)

# 在计算平均值之前填充缺失值
df_filled = df.fillna(df.mean())
grouped_avg_filled = df_filled.groupby('category').mean()
print(grouped_avg_filled)

这个例子展示了如何在存在缺失值的情况下计算平均值，以及如何在计算之前填充缺失值。

4.3 使用 transform() 方法

transform() 方法允许您将聚合结果广播回原始 DataFrame 的形状：

import pandas as pd

# 创建示例数据
data = {
    'category': ['A', 'B', 'A', 'B', 'A'],
    'value1': [10, 20, 15, 25, 30],
    'value2': [100, 200, 150, 250, 300],
    'website': ['pandasdataframe.com'] * 5
}
df = pd.DataFrame(data)

# 使用 transform 计算每个类别的平均值
df['value1_mean'] = df.groupby('category')['value1'].transform('mean')
df['value2_mean'] = df.groupby('category')['value2'].transform('mean')
print(df)

Output:

Pandas GroupBy 和计算所有列平均值的全面指南

这个例子展示了如何为每个类别计算平均值，并将结果添加为新列。

5. 处理大型数据集

当处理大型数据集时，性能可能会成为一个问题。以下是一些提高性能的技巧：

5.1 使用 categorical 数据类型

对于分组列，使用 categorical 数据类型可以显著提高性能：

import pandas as pd

# 创建大型示例数据
data = {
    'category': ['A', 'B', 'C'] * 1000000,
    'value': range(3000000),
    'website': ['pandasdataframe.com'] * 3000000
}
df = pd.DataFrame(data)

# 将 category 列转换为 categorical 类型
df['category'] = df['category'].astype('category')

# 计算平均值
grouped_avg = df.groupby('category')['value'].mean()
print(grouped_avg)

Output:

Pandas GroupBy 和计算所有列平均值的全面指南

这个例子展示了如何使用 categorical 数据类型来提高大型数据集的分组性能。

5.2 使用 numba 加速

对于自定义聚合函数，可以使用 numba 来加速计算：

import pandas as pd
import numpy as np
from numba import jit

# 创建示例数据
data = {
    'category': ['A', 'B', 'A', 'B', 'A'] * 1000000,
    'value': np.random.rand(5000000),
    'website': ['pandasdataframe.com'] * 5000000
}
df = pd.DataFrame(data)

# 定义 numba 加速的函数
@jit(nopython=True)
def custom_mean(x):
    return np.mean(x) * 2

# 使用 numba 加速的函数
grouped_custom = df.groupby('category')['value'].agg(custom_mean)
print(grouped_custom)

这个例子展示了如何使用 numba 来加速自定义聚合函数的计算。

6. 实际应用场景

让我们看一些实际的应用场景，以便更好地理解 GroupBy 和计算平均值的用途。

6.1 销售数据分析

假设我们有一个销售数据集：

import pandas as pd
import numpy as np

# 创建销售数据
np.random.seed(0)
data = {
    'date': pd.date_range(start='2023-01-01', end='2023-12-31', freq='D'),
    'product': np.random.choice(['A', 'B', 'C'], size=365),
    'sales': np.random.randint(100, 1000, size=365),
    'cost': np.random.randint(50, 500, size=365),
    'website': ['pandasdataframe.com'] * 365
}
df = pd.DataFrame(data)

# 计算每个产品的平均销售额和成本
product_stats = df.groupby('product').agg({
    'sales': 'mean',
    'cost': 'mean'
})

# 计算利润
product_stats['profit'] = product_stats['sales'] - product_stats['cost']

print(product_stats)

Output:

Pandas GroupBy 和计算所有列平均值的全面指南

这个例子展示了如何分析销售数据，计算每个产品的平均销售额、成本和利润。

6.2 时间序列数据分析

对于时间序列数据，我们可能想要按月或季度进行分组：

import pandas as pd
import numpy as np

# 创建时间序列数据
np.random.seed(0)
date_range = pd.date_range(start='2023-01-01', end='2023-12-31', freq='D')
data = {
    'date': date_range,
    'temperature': np.random.normal(25, 5, size=len(date_range)),
    'humidity': np.random.normal(60, 10, size=len(date_range)),
    'website': ['pandasdataframe.com'] * len(date_range)
}
df = pd.DataFrame(data)

# 设置日期为索引
df.set_index('date', inplace=True)

# 按月分组并计算平均值
monthly_avg = df.groupby(pd.Grouper(freq='M')).mean()

# 按季度分组并计算平均值
quarterly_avg = df.groupby(pd.Grouper(freq='Q')).mean()

print("Monthly averages:")
print(monthly_avg)
print("\nQuarterly averages:")
print(quarterly_avg)

这个例子展示了如何对时间序列数据进行按月和按季度的分组和平均值计算。

6.3 客户分析

假设我们有一个客户交易数据集：

import pandas as pd
import numpy as np

# 创建客户交易数据
np.random.seed(0)
data = {
    'customer_id': np.random.randint(1, 101, size=1000),
    'transaction_date': pd.date_range(start='2023-01-01', end='2023-12-31', periods=1000),
    'amount': np.random.randint(10, 1000, size=1000),
    'category': np.random.choice(['Electronics', 'Clothing', 'Food', 'Books'], size=1000),
    'website': ['pandasdataframe.com'] * 1000
}
df = pd.DataFrame(data)

# 计算每个客户的总消费和平均消费
customer_stats = df.groupby('customer_id').agg({
    'amount': ['sum', 'mean'],
    'transaction_date': 'count'
})
customer_stats.columns = ['total_spend', 'avg_spend', 'transaction_count']

# 计算每个客户在不同类别的消费比例
category_spend = df.groupby(['customer_id', 'category'])['amount'].sum().unstack(fill_value=0)
category_spend_pct = category_spend.div(category_spend.sum(axis=1), axis=0)

# 合并结果
customer_analysis = pd.concat([customer_stats, category_spend_pct], axis=1)

print(customer_analysis)

Output:

Pandas GroupBy 和计算所有列平均值的全面指南

这个例子展示了如何对客户交易数据进行全面分析，包括计算总消费、平均消费、交易次数以及不同类别的消费比例。

7. 处理多层索引结果

GroupBy 操作通常会产生多层索引（MultiIndex）的结果。处理这种结果需要一些特殊技巧：

7.1 重置索引

有时，您可能想要将多层索引转换为普通列：

import pandas as pd

# 创建示例数据
data = {
    'category': ['A', 'B', 'A', 'B', 'A'],
    'subcategory': ['X', 'Y', 'X', 'Y', 'Z'],
    'value': [10, 20, 15, 25, 30],
    'website': ['pandasdataframe.com'] * 5
}
df = pd.DataFrame(data)

# 按多个列分组并计算平均值
grouped_avg = df.groupby(['category', 'subcategory']).mean()

# 重置索引
grouped_avg_reset = grouped_avg.reset_index()
print(grouped_avg_reset)

这个例子展示了如何将多层索引结果转换为普通的 DataFrame。

7.2 选择特定级别

您可以使用 level 参数来选择特定的索引级别：

import pandas as pd

# 创建示例数据
data = {
    'category': ['A', 'B', 'A', 'B', 'A'],
    'subcategory': ['X', 'Y', 'X', 'Y', 'Z'],
    'value': [10, 20, 15, 25, 30],
    'website': ['pandasdataframe.com'] * 5
}
df = pd.DataFrame(data)

# 按多个列分组并计算平均值
grouped_avg = df.groupby(['category', 'subcategory']).mean()

# 选择特定级别
category_avg = grouped_avg.mean(level='category')
print(category_avg)

这个例子展示了如何计算特定索引级别的平均值。

8. 高级数据转换

有时，我们需要在分组后进行更复杂的数据转换。

8.1 使用 apply() 方法

apply() 方法允许您对每个组应用自定义函数：

import pandas as pd

# 创建示例数据
data = {
    'category': ['A', 'B', 'A', 'B', 'A'],
    'value1': [10, 20, 15, 25, 30],
    'value2': [100, 200, 150, 250, 300],
    'website': ['pandasdataframe.com'] * 5
}
df = pd.DataFrame(data)

# 定义自定义函数
def custom_transform(group):
    group['value_ratio'] = group['value1'] / group['value2']
    return group

# 应用自定义函数
transformed = df.groupby('category').apply(custom_transform)
print(transformed)

Output:

Pandas GroupBy 和计算所有列平均值的全面指南

这个例子展示了如何使用 apply() 方法来创建一个新的比率列。

8.2 透视表和交叉表

透视表和交叉表是数据分析中常用的工具：

import pandas as pd
import numpy as np

# 创建示例数据
np.random.seed(0)
data = {
    'date': pd.date_range(start='2023-01-01', end='2023-12-31', freq='D'),
    'product': np.random.choice(['A', 'B', 'C'], size=365),
    'region': np.random.choice(['North', 'South', 'East', 'West'], size=365),
    'sales': np.random.randint(100, 1000, size=365),
    'website': ['pandasdataframe.com'] * 365
}
df = pd.DataFrame(data)

# 创建透视表
pivot_table = pd.pivot_table(df, values='sales', index='product', columns='region', aggfunc='mean')
print("Pivot Table:")
print(pivot_table)

# 创建交叉表
cross_tab = pd.crosstab(df['product'], df['region'], values=df['sales'], aggfunc='mean')
print("\nCross Table:")
print(cross_tab)

Output:

Pandas GroupBy 和计算所有列平均值的全面指南

这个例子展示了如何创建透视表和交叉表来分析产品在不同地区的平均销售额。

9. 处理日期和时间数据

在处理时间序列数据时，GroupBy 操作特别有用：

import pandas as pd
import numpy as np

# 创建时间序列数据
np.random.seed(0)
date_range = pd.date_range(start='2023-01-01', end='2023-12-31', freq='H')
data = {
    'timestamp': date_range,
    'value': np.random.normal(0, 1, size=len(date_range)),
    'website': ['pandasdataframe.com'] * len(date_range)
}
df = pd.DataFrame(data)

# 设置时间戳为索引
df.set_index('timestamp', inplace=True)

# 按小时、日、月计算平均值
hourly_avg = df.groupby(df.index.hour)['value'].mean()
daily_avg = df.groupby(df.index.date)['value'].mean()
monthly_avg = df.groupby(df.index.to_period('M'))['value'].mean()

print("Hourly average:")
print(hourly_avg)
print("\nDaily average:")
print(daily_avg.head())
print("\nMonthly average:")
print(monthly_avg)

Output:

Pandas GroupBy 和计算所有列平均值的全面指南

这个例子展示了如何对时间序列数据进行不同时间尺度的分组和平均值计算。

10. 性能优化技巧

在处理大型数据集时，性能优化变得尤为重要。以下是一些提高 GroupBy 操作性能的技巧：

10.1 使用 Categoricals

对于具有有限且重复值的列，使用 Categorical 数据类型可以显著提高性能：

import pandas as pd
import numpy as np

# 创建大型数据集
n = 1000000
data = {
    'category': np.random.choice(['A', 'B', 'C', 'D'], size=n),
    'value': np.random.randn(n),
    'website': ['pandasdataframe.com'] * n
}
df = pd.DataFrame(data)

# 转换为 Categorical
df['category'] = df['category'].astype('category')

# 执行 GroupBy 操作
grouped = df.groupby('category')['value'].mean()
print(grouped)

Output:

Pandas GroupBy 和计算所有列平均值的全面指南

这个例子展示了如何使用 Categorical 数据类型来提高 GroupBy 操作的性能。

10.2 使用 Numba 加速自定义函数

对于复杂的自定义聚合函数，可以使用 Numba 来加速计算：

import pandas as pd
import numpy as np
from numba import jit

# 创建示例数据
n = 1000000
data = {
    'category': np.random.choice(['A', 'B', 'C', 'D'], size=n),
    'value': np.random.randn(n),
    'website': ['pandasdataframe.com'] * n
}
df = pd.DataFrame(data)

# 定义 Numba 加速的函数
@jit(nopython=True)
def custom_agg(x):
    return np.mean(x) * np.std(x)

# 使用 Numba 加速的函数
result = df.groupby('category')['value'].agg(custom_agg)
print(result)

这个例子展示了如何使用 Numba 来加速自定义聚合函数的计算。