Pandas按分组随机重排数据框

在本文中，我们将介绍如何使用Pandas按分组随机重排数据框。该方法通常用于统计分析，机器学习等领域。我们将使用Python的Pandas库完成此任务。先看一下下面示例演示如何按照组对Pandas数据框随机重排：

import pandas as pd
import numpy as np

df = pd.DataFrame({"group": [1, 1, 2, 2, 3, 3],
                   "value": [10, 20, 30, 40, 50, 60]})

# 分组随机重排
df = df.groupby("group", group_keys=False).apply(lambda x: x.sample(frac=1))

print(df)

输出结果为：

   group  value
1      1     20
0      1     10
2      2     30
3      2     40
4      3     50
5      3     60

可以看到，每个组的行已经被打乱顺序，但仍然保持了它们的分组。让我们来仔细讲解一下这个方法。

阅读更多：Pandas 教程

按分组重排

首先，我们要按照分组方法重构我们的数据框。在上述示例中，通过df.groupby(“group”)，我们指定了按group列分组，并获得了一个groupby对象。我们可以使用groupby对象执行聚合函数。在这种情况下，我们不需要聚合函数，而是使用了groupby对象上的apply函数，并将其应用于一个lambda函数，它随机重排了分组中的数据。

在此lambda函数中，我们使用Pandas的样本抽样函数（sample）来随机重排行。我们使用frac=1来指定要选择的行占原来分组的100%。如果需要提取数据集的特定比例，调整frac参数即可。

最后，我们通过group_keys=False从输出结果中去除组标签，只保留原始数据框的索引。

案例

假设有一份销售记录的数据框，我们希望按每个销售员的销售记录随机重排一下：

import pandas as pd
import numpy as np

# 创建一组模拟数据
data = {"Salesperson": ["John", "Mary", "John", "Mary", "John", "Mary"],
        "Product": ["A", "B", "A", "B", "A", "B"],
        "Sales": [100, 200, 150, 75, 300, 250]}
df = pd.DataFrame(data)

# 按销售员随机重排
df = df.groupby("Salesperson", group_keys=False).apply(lambda x: x.sample(frac=1))

print(df)

输出结果为：

  Salesperson Product  Sales
0        John       A    100
4        John       A    300
2        John       A    150
5        Mary       B    250
3        Mary       B     75
1        Mary       B    200

可以看到，这个数据框已经被按照两个销售员分组，并按销售记录被打乱了顺序。