Pandas中使用groupby和rank进行高效数据分析和排名|极客笔记

Pandas中使用groupby和rank进行高效数据分析和排名

Pandas是Python中强大的数据处理库，其中groupby和rank函数是进行数据分析和排名的重要工具。本文将详细介绍如何在Pandas中使用groupby和rank函数，以及它们在实际应用中的各种用法和技巧。

1. Pandas中的groupby函数

groupby函数是Pandas中用于分组操作的核心函数。它允许我们根据一个或多个列对数据进行分组，然后对每个分组应用各种聚合函数或自定义操作。

1.1 基本用法

让我们从一个简单的例子开始：

import pandas as pd

# 创建示例数据
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob'],
    'city': ['New York', 'London', 'Paris', 'New York', 'London'],
    'sales': [100, 200, 300, 150, 250]
}
df = pd.DataFrame(data)

# 按name分组并计算sales的总和
grouped = df.groupby('name')['sales'].sum()

print("pandasdataframe.com - Grouped sales sum:")
print(grouped)

Output:

Pandas中使用groupby和rank进行高效数据分析和排名

在这个例子中，我们首先创建了一个包含名字、城市和销售额的DataFrame。然后，我们使用groupby(‘name’)按名字分组，并计算每个人的总销售额。

1.2 多列分组

groupby函数也支持多列分组：

import pandas as pd

# 创建示例数据
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob'],
    'city': ['New York', 'London', 'Paris', 'New York', 'London'],
    'category': ['A', 'B', 'A', 'B', 'A'],
    'sales': [100, 200, 300, 150, 250]
}
df = pd.DataFrame(data)

# 按name和city分组并计算sales的平均值
grouped = df.groupby(['name', 'city'])['sales'].mean()

print("pandasdataframe.com - Grouped sales mean:")
print(grouped)

Output:

Pandas中使用groupby和rank进行高效数据分析和排名

这个例子展示了如何按多个列（name和city）进行分组，并计算每个组的平均销售额。

1.3 应用多个聚合函数

我们可以同时应用多个聚合函数：

import pandas as pd

# 创建示例数据
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob'],
    'city': ['New York', 'London', 'Paris', 'New York', 'London'],
    'sales': [100, 200, 300, 150, 250]
}
df = pd.DataFrame(data)

# 按name分组并应用多个聚合函数
grouped = df.groupby('name')['sales'].agg(['sum', 'mean', 'max', 'min'])

print("pandasdataframe.com - Multiple aggregations:")
print(grouped)

Output:

Pandas中使用groupby和rank进行高效数据分析和排名

这个例子展示了如何对分组后的数据同时应用多个聚合函数，包括求和、平均值、最大值和最小值。

1.4 自定义聚合函数

除了内置的聚合函数，我们还可以使用自定义函数：

import pandas as pd

# 创建示例数据
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob'],
    'city': ['New York', 'London', 'Paris', 'New York', 'London'],
    'sales': [100, 200, 300, 150, 250]
}
df = pd.DataFrame(data)

# 自定义聚合函数
def range_diff(x):
    return x.max() - x.min()

# 按name分组并应用自定义函数
grouped = df.groupby('name')['sales'].agg(range_diff)

print("pandasdataframe.com - Custom aggregation:")
print(grouped)

Output:

Pandas中使用groupby和rank进行高效数据分析和排名

这个例子展示了如何定义一个自定义函数（计算最大值和最小值的差），并将其应用于分组后的数据。

1.5 分组转换

groupby还支持转换操作，可以将结果广播回原始DataFrame的形状：

import pandas as pd

# 创建示例数据
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob'],
    'city': ['New York', 'London', 'Paris', 'New York', 'London'],
    'sales': [100, 200, 300, 150, 250]
}
df = pd.DataFrame(data)

# 按name分组并计算每组的平均值，然后广播回原始DataFrame
df['sales_mean'] = df.groupby('name')['sales'].transform('mean')

print("pandasdataframe.com - Grouped transformation:")
print(df)

Output:

Pandas中使用groupby和rank进行高效数据分析和排名

这个例子展示了如何使用transform函数计算每个组的平均销售额，并将结果添加为新的列。

2. Pandas中的rank函数

rank函数用于计算数据在序列中的排名。它可以应用于Series或DataFrame，并提供多种排名方法和处理平局的选项。

2.1 基本用法

让我们从一个简单的例子开始：

import pandas as pd

# 创建示例数据
data = {'score': [85, 90, 80, 95, 85]}
df = pd.DataFrame(data)

# 计算排名
df['rank'] = df['score'].rank(method='dense', ascending=False)

print("pandasdataframe.com - Basic ranking:")
print(df)

Output:

Pandas中使用groupby和rank进行高效数据分析和排名

在这个例子中，我们对’score’列进行排名。使用’dense’方法意味着相同的值会得到相同的排名，而下一个不同的值会得到下一个排名。’ascending=False’表示分数高的排名靠前。

2.2 处理平局

rank函数提供了多种处理平局的方法：

import pandas as pd

# 创建示例数据
data = {'score': [85, 90, 80, 95, 85]}
df = pd.DataFrame(data)

# 使用不同的方法处理平局
df['rank_average'] = df['score'].rank(method='average', ascending=False)
df['rank_min'] = df['score'].rank(method='min', ascending=False)
df['rank_max'] = df['score'].rank(method='max', ascending=False)
df['rank_first'] = df['score'].rank(method='first', ascending=False)

print("pandasdataframe.com - Handling ties:")
print(df)

Output:

Pandas中使用groupby和rank进行高效数据分析和排名

这个例子展示了rank函数的四种处理平局的方法：
– ‘average’：平均排名
– ‘min’：最小排名
– ‘max’：最大排名
– ‘first’：按数据出现的顺序排名

2.3 百分比排名

rank函数还可以计算百分比排名：

import pandas as pd

# 创建示例数据
data = {'score': [85, 90, 80, 95, 85]}
df = pd.DataFrame(data)

# 计算百分比排名
df['percentile_rank'] = df['score'].rank(pct=True)

print("pandasdataframe.com - Percentile ranking:")
print(df)

Output:

Pandas中使用groupby和rank进行高效数据分析和排名

这个例子展示了如何使用rank函数计算百分比排名。’pct=True’参数将排名转换为0到1之间的百分比。

2.4 在DataFrame中应用rank

rank函数可以应用于DataFrame的多个列：

import pandas as pd

# 创建示例数据
data = {
    'math': [85, 90, 80, 95, 85],
    'physics': [88, 92, 78, 96, 86],
    'chemistry': [82, 88, 76, 94, 84]
}
df = pd.DataFrame(data)

# 对所有科目进行排名
df_ranked = df.rank(method='dense', ascending=False)

print("pandasdataframe.com - Ranking multiple columns:")
print(df_ranked)

Output:

Pandas中使用groupby和rank进行高效数据分析和排名

这个例子展示了如何对DataFrame中的多个列同时进行排名。

3. 结合groupby和rank

groupby和rank函数可以结合使用，实现更复杂的数据分析任务。

3.1 分组内排名

我们可以在每个组内进行排名：

import pandas as pd

# 创建示例数据
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob'],
    'subject': ['Math', 'Math', 'Math', 'Physics', 'Physics'],
    'score': [85, 90, 80, 95, 88]
}
df = pd.DataFrame(data)

# 在每个subject组内对score进行排名
df['rank'] = df.groupby('subject')['score'].rank(method='dense', ascending=False)

print("pandasdataframe.com - Ranking within groups:")
print(df)

Output:

Pandas中使用groupby和rank进行高效数据分析和排名

这个例子展示了如何在每个科目组内对分数进行排名。

3.2 计算组内百分比排名

我们可以计算每个组内的百分比排名：

import pandas as pd

# 创建示例数据
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob'],
    'department': ['Sales', 'Sales', 'Marketing', 'Sales', 'Marketing'],
    'sales': [100, 200, 300, 150, 250]
}
df = pd.DataFrame(data)

# 计算每个department内的百分比排名
df['percentile'] = df.groupby('department')['sales'].rank(pct=True)

print("pandasdataframe.com - Percentile ranking within groups:")
print(df)

Output:

Pandas中使用groupby和rank进行高效数据分析和排名

这个例子展示了如何计算每个部门内销售额的百分比排名。

3.3 找出每组的前N名

我们可以使用groupby和rank来找出每个组的前N名：

import pandas as pd

# 创建示例数据
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve', 'Frank'],
    'department': ['Sales', 'Sales', 'Marketing', 'Sales', 'Marketing', 'Sales'],
    'sales': [100, 200, 300, 150, 250, 180]
}
df = pd.DataFrame(data)

# 在每个department中找出前2名
df['rank'] = df.groupby('department')['sales'].rank(method='first', ascending=False)
top_2 = df[df['rank'] <= 2]

print("pandasdataframe.com - Top 2 in each group:")
print(top_2)

Output:

Pandas中使用groupby和rank进行高效数据分析和排名

这个例子展示了如何找出每个部门销售额排名前2的员工。

3.4 计算组内相对排名

我们可以计算每个值相对于组内平均值的排名：

import pandas as pd

# 创建示例数据
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
    'department': ['Sales', 'Sales', 'Marketing', 'Sales', 'Marketing'],
    'sales': [100, 200, 300, 150, 250]
}
df = pd.DataFrame(data)

# 计算每个销售额相对于部门平均值的排名
df['avg_sales'] = df.groupby('department')['sales'].transform('mean')
df['relative_rank'] = (df['sales'] - df['avg_sales']).rank(method='dense')

print("pandasdataframe.com - Relative ranking within groups:")
print(df)

Output:

Pandas中使用groupby和rank进行高效数据分析和排名

这个例子展示了如何计算每个销售额相对于部门平均值的排名。

4. 高级应用

4.1 多级分组排名

我们可以使用多级分组进行更复杂的排名：

import pandas as pd

# 创建示例数据
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve', 'Frank'],
    'department': ['Sales', 'Sales', 'Marketing', 'Sales', 'Marketing', 'Sales'],
    'region': ['East', 'West', 'East', 'West', 'East', 'East'],
    'sales': [100, 200, 300, 150, 250, 180]
}
df = pd.DataFrame(data)

# 在每个department和region组合内进行排名
df['rank'] = df.groupby(['department', 'region'])['sales'].rank(method='dense', ascending=False)

print("pandasdataframe.com - Multi-level grouping and ranking:")
print(df)

Output:

Pandas中使用groupby和rank进行高效数据分析和排名

这个例子展示了如何在部门和地区的组合内进行销售额排名。

4.2 计算累积百分比

我们可以使用groupby和rank来计算累积百分比：

import pandas as pd

# 创建示例数据
data = {
    'product': ['A', 'B', 'C', 'D', 'E'],
    'sales': [100, 200, 300, 150, 250]
}
df = pd.DataFrame(data)

# 计算累积百分比
df = df.sort_values('sales', ascending=False)
df['cumulative_pct'] = df['sales'].rank(method='max', pct=True)

print("pandasdataframe.com - Cumulative percentage:")
print(df)

Output:

Pandas中使用groupby和rank进行高效数据分析和排名

这个例子展示了如何计算销售额的累积百分比。

4.3 计算移动排名

我们可以结合rolling和rank函数计算移动排名：

import pandas as pd

# 创建示例数据
data = {
    'date': pd.date_range(start='2023-01-01', periods=10),
    'value': [100, 120, 110, 130, 140, 135, 125, 145, 150, 160]
}
df = pd.DataFrame(data)

# 计算3天移动窗口内的排名
df['moving_rank'] = df['value'].rolling(window=3).rank(method='dense', ascending=False)

print("pandasdataframe.com - Moving rank:")
print(df)

这个例子展示了如何计算3天移动窗口内的排名。

4.4 分组后计算排名差异

我们可以计算不同组之间的排名差异：

import pandas as pd

# 创建示例数据
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
    'department': ['Sales', 'Sales', 'Marketing', 'Sales', 'Marketing'],
    'sales_2022': [100, 200, 300, 150, 250],
    'sales_2023': [120, 180, 320, 170, 280]
}
df = pd.DataFrame(data)

# 计算2022和2023年的排名
df['rank_2022'] = df.groupby('department')['sales_2022'].rank(method='dense', ascending=False)
df['rank_2023'] = df.groupby('department')['sales_2023'].rank(method='dense', ascending=False)

# 计算排名变化
df['rank_change'] = df['rank_2022'] - df['rank_2023']

print("pandasdataframe.com - Rank change between years:")
print(df)

Output:

Pandas中使用groupby和rank进行高效数据分析和排名

这个例子展示了如何计算员工在2022年和2023年之间的排名变化。

4.5 使用qcut进行分组排名

我们可以结合qcut和rank函数进行更复杂的分组排名：

import pandas as pd

# 创建示例数据
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve', 'Frank', 'George', 'Helen'],
    'score': [85, 92, 78, 95, 88, 76, 90, 82]
}
df = pd.DataFrame(data)

# 使用qcut将分数分为3组
df['score_group'] = pd.qcut(df['score'], q=3, labels=['Low', 'Medium', 'High'])

# 在每个分数组内进行排名
df['within_group_rank'] = df.groupby('score_group')['score'].rank(method='dense', ascending=False)

print("pandasdataframe.com - Ranking within score groups:")
print(df)

这个例子展示了如何使用qcut将分数分为三组，然后在每个组内进行排名。

5. 性能优化技巧

在处理大型数据集时，groupby和rank操作可能会变得很慢。以下是一些优化性能的技巧：

5.1 使用分类数据类型

对于分组列，使用分类数据类型可以显著提高性能：

import pandas as pd

# 创建示例数据
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'] * 1000,
    'department': ['Sales', 'Marketing', 'IT', 'HR', 'Finance'] * 1000,
    'sales': range(5000)
}
df = pd.DataFrame(data)

# 将department列转换为分类类型
df['department'] = df['department'].astype('category')

# 进行分组排名
df['rank'] = df.groupby('department')['sales'].rank(method='dense', ascending=False)

print("pandasdataframe.com - Using categorical data type:")
print(df.head())

这个例子展示了如何将分组列转换为分类类型以提高性能。

5.2 使用numba加速

对于自定义的排名函数，可以使用numba进行加速：

import pandas as pd
import numpy as np
from numba import jit

@jit(nopython=True)
def custom_rank(arr):
    temp = arr.argsort()
    ranks = np.empty_like(temp)
    ranks[temp] = np.arange(len(arr))
    return ranks

# 创建示例数据
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'] * 1000,
    'sales': np.random.randint(100, 1000, 5000)
}
df = pd.DataFrame(data)

# 使用numba加速的自定义排名函数
df['rank'] = custom_rank(df['sales'].values)

print("pandasdataframe.com - Using numba for acceleration:")
print(df.head())

Output:

Pandas中使用groupby和rank进行高效数据分析和排名

这个例子展示了如何使用numba加速自定义的排名函数。

6. 实际应用案例

6.1 学生成绩分析

import pandas as pd

# 创建示例数据
data = {
    'student': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'] * 3,
    'subject': ['Math', 'Math', 'Math', 'Math', 'Math'] + 
               ['Physics', 'Physics', 'Physics', 'Physics', 'Physics'] + 
               ['Chemistry', 'Chemistry', 'Chemistry', 'Chemistry', 'Chemistry'],
    'score': [85, 92, 78, 95, 88, 90, 85, 82, 88, 79, 92, 86, 90, 84, 91]
}
df = pd.DataFrame(data)

# 计算每个学生在每个科目的排名
df['subject_rank'] = df.groupby('subject')['score'].rank(method='min', ascending=False)

# 计算每个学生的总分和总排名
df_total = df.groupby('student')['score'].sum().reset_index()
df_total['total_rank'] = df_total['score'].rank(method='min', ascending=False)

print("pandasdataframe.com - Student performance analysis:")
print(df)
print("\nTotal scores and ranks:")
print(df_total)

Output:

Pandas中使用groupby和rank进行高效数据分析和排名

这个例子展示了如何分析学生在不同科目的成绩和排名，以及总分排名。

6.2 销售数据分析

import pandas as pd

# 创建示例数据
data = {
    'date': pd.date_range(start='2023-01-01', periods=100),
    'product': ['A', 'B', 'C', 'D'] * 25,
    'region': ['East', 'West', 'North', 'South'] * 25,
    'sales': np.random.randint(100, 1000, 100)
}
df = pd.DataFrame(data)

# 计算每个产品在每个地区的销售排名
df['product_region_rank'] = df.groupby(['product', 'region'])['sales'].rank(method='dense', ascending=False)

# 计算每个产品的总销售额和排名
product_sales = df.groupby('product')['sales'].sum().reset_index()
product_sales['product_rank'] = product_sales['sales'].rank(method='dense', ascending=False)

# 计算每个地区的总销售额和排名
region_sales = df.groupby('region')['sales'].sum().reset_index()
region_sales['region_rank'] = region_sales['sales'].rank(method='dense', ascending=False)

print("pandasdataframe.com - Sales data analysis:")
print(df.head(10))
print("\nProduct total sales and ranks:")
print(product_sales)
print("\nRegion total sales and ranks:")
print(region_sales)

这个例子展示了如何分析销售数据，包括产品在不同地区的销售排名，以及产品和地区的总销售额排名。