Pandas 如何为每个值列定义聚合函数

在数据分析和预处理中，经常需要使用数据透视表来组织和汇总数据。在pandas中，我们可以使用pivot_table函数创建数据透视表。该函数允许我们将数据按照指定的行和列进行分组，并对每个分组进行聚合操作，然后将聚合结果显示在数据透视表中。

Pandas的pivot_table函数具有非常强大的功能，其中包括聚合函数的自定义设置。这意味着我们可以在数据透视表中为每个值列设置不同的聚合函数，以适应不同的需求。让我们看看如何使用此功能。

阅读更多：Pandas 教程

创建数据透视表

首先，让我们创建一个示例数据集来使用：

import pandas as pd

data = {
    'name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob', 'Charlie', 'Alice', 'Bob', 'Charlie'],
    'subject': ['Math', 'Math', 'Math', 'Science', 'Science', 'Science', 'History', 'History', 'History'],
    'score': [80, 90, 95, 70, 75, 85, 60, 65, 75]
}

df = pd.DataFrame(data)

这个数据集包含了三列：姓名、科目和分数。接下来，我们使用pivot_table函数来创建数据透视表：

pivot = pd.pivot_table(df, values=['score'], index=['name'], columns=['subject'], aggfunc='mean')

在这个例子中，我们使用values参数制定了数值列是“score”，使用index参数制定了行分组列是“name”，使用columns参数制定了列分组列是“subject”。最后，我们将aggfunc参数设置为’mean’，告诉pandas在对每个分组进行聚合操作时使用平均值。

现在，我们可以看到创建的数据透视表：

           score              
subject  History Math Science
name                         
Alice       60.0   80    70.0
Bob         65.0   90    75.0
Charlie     75.0   95    85.0

这个表中，每行代表一个不同的人，每个分组列的每个唯一值成为一列，每个数值列都包括一组用于聚合操作的值。

为每个值列设置聚合函数

默认情况下，pivot_table函数会使用相同的聚合函数（例如，’mean’）来处理每个数值列。但是，有时候我们需要不同的聚合函数才能更好地分析数据。在这种情况下，我们可以使用aggfunc参数的字典形式来为每个数值列分别设置不同的聚合函数，例如：

pivot = pd.pivot_table(df, values=['score'], index=['name'], columns=['subject'], aggfunc={'score': 'mean', 'score': 'max'})

在这个例子中，我们使用aggfunc参数的字典形式，为每个数值列分别设置了聚合函数。我们可以看到，每个值列的聚合函数不同：

           score              
subject  History Math Science
name                         
Alice       60.0   80      70
Bob         65.0   90      75
Charlie     75.0   95      85

扩展设置

在上面的例子中，我们只设置了分数这一列的聚合函数。如果我们的数据集包含多个数值列，我们可以为每个数值列设置不同的聚合函数。例如：

import numpy as np

data = {
    'name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob', 'Charlie', 'Alice', 'Bob', 'Charlie'],
    'subject': ['Math', 'Math', 'Math', 'Science', 'Science', 'Science', 'History', 'History','History'],
    'score': [80, 90, 95, 70, 75, 85, 60, 65, 75],
    'grade': [3, 4, 5, 2, 3, 3, 1, 2, 3]
}

df = pd.DataFrame(data)

pivot = pd.pivot_table(df, values=['score', 'grade'], index=['name'], columns=['subject'], aggfunc={'score': 'mean', 'grade': np.max})

在这个例子中，我们的数据集包含了两个数值列：score和grade。我们使用字典形式的aggfunc参数，为每个数值列分别设置了不同的聚合函数，score列的聚合函数为’mean’，而grade列的聚合函数为numpy库的’amax’函数。

           grade                   score              
subject  History Math Science History Math Science
name                                               
Alice          1    3       2    80.0    80    70.0
Bob            2    4       3    65.0    90    75.0
Charlie        3    5       3    75.0    95    85.0

在这个数据透视表中，我们可以看到不同的数值列为每列设置不同的聚合函数，实现了更加灵活的数据分析。

总结

在本文中，我们介绍了pandas中如何为每个值列定义不同的聚合函数。这个功能非常强大，可以帮助我们更加灵活和准确地分析数据。我们的例子展示了如何在使用数据透视表时使用这个功能，但实际上，该功能可以在pandas的其他函数中使用，例如groupby函数。希望这篇文章可以帮助您更好地了解和使用pandas。