Pandas 以每个组的平均值进行填充缺失值

在本文中，我们将介绍如何使用Pandas库，以每个组的平均值来填充缺失值。在数据分析和处理中，通常会遇到许多缺失值，而填充这些缺失值是必要的步骤。而使用每个组的平均值来填充缺失值，可以更好地保持原始数据的特性。

创建数据

首先，我们需要创建一些示例数据。假设我们有一个数据集，其中包含三列“班级”、“成绩”和“出勤次数”。数据如下所示：

班级	成绩	出勤次数
Class1	75	3
Class2	80	4
Class1	NaN	2
Class2	85	3
Class1	90	NaN
Class2	92	5

在这个数据集中，有两个班级（Class1和Class2），每个班级有三个学生的成绩和出勤次数。但是，此数据集中存在缺失值。

分组计算

要以每个组的平均值来填充缺失值，我们需要首先对数据进行分组。在本例中，我们将根据“班级”列进行分组。使用Pandas，可以很容易地进行分组：

import pandas as pd

data = {'Class': ['Class1', 'Class2', 'Class1', 'Class2', 'Class1', 'Class2'],
        'Score': [75, 80, None, 85, 90, 92],
        'Attendance': [3, 4, 2, 3, None, 5]}
df = pd.DataFrame(data)

grouped = df.groupby('Class')

这将创建一个名为“grouped”的对象，其中包含按“班级”列分组的数据。

计算每个组的平均值来填充缺失值

接下来，我们需要计算每个组的平均值，并使用该平均值来填充每个组的缺失值。我们可以使用Pandas的“transform”函数来完成此任务：

filled = grouped.transform(lambda x: x.fillna(x.mean()))

这将使用每个组的平均值填充每个组的缺失值，并将结果保存在名为“filled”的数据帧中。

检查结果

最后，我们可以检查填充后的数据，以确保缺失值已经被成功地填充了：

print(filled)

输出结果如下：

   Score  Attendance
0   75.0         3.0
1   80.0         4.0
2   82.5         2.0
3   85.0         3.0
4   90.0         2.5
5   92.0         5.0

请注意，第二个班级（Class2）没有缺失值，因此该组被保留为原样。而在第一个班级（Class1）中，第三个学生的成绩被填充为82.5，这是该班级中其他学生成绩的平均值。此外，第一个班级中第三个学生的出勤次数被填充为2，这是该班级中其他学生出勤次数的平均值。

总结

本文介绍了如何使用Pandas库，以每个组的平均值来填充缺失值。使用“groupby”和“transform”函数，可以轻松地分组计算每个组的平均值，并使用该平均值来填充缺失值。这是一种常用的数据处理技巧，可以帮助我们更好地预处理数据，为分析和建模做好准备。在实际应用中，还可以根据具体情况选择其他的填充方式，比如使用中位数或者向前/向后填充等。通过对数据的处理，我们可以更好地理解和利用数据，从而做出更加准确的决策。