pandas apply 多列|极客笔记

pandas apply 多列

在使用pandas进行数据处理时，经常会遇到需要对多列数据进行某种操作的情况。pandas的apply函数允许我们对DataFrame中的多列数据进行自定义函数的操作。本文将详细介绍如何使用pandas的apply函数对多列数据进行操作。

什么是apply函数

在pandas中，apply函数是一种灵活的数据处理工具，允许我们对DataFrame中的数据进行元素级别的操作。apply函数可以接收一个自定义函数作为参数，然后将这个函数应用到DataFrame的每一行或每一列数据上。

apply函数的基本用法

首先，让我们创建一个简单的示例DataFrame来演示apply函数的基本用法：

import pandas as pd

data = {'A': [1, 2, 3, 4, 5],
        'B': [6, 7, 8, 9, 10],
        'C': [11, 12, 13, 14, 15]}

df = pd.DataFrame(data)
print(df)

运行以上代码，我们将得到如下的DataFrame：

   A   B   C
0  1   6  11
1  2   7  12
2  3   8  13
3  4   9  14
4  5  10  15

接下来，我们使用apply函数对多列数据进行操作。假设我们想要计算每一行数据的总和，我们可以定义一个函数来实现这个功能，并将这个函数应用到DataFrame的每一行上：

def sum_row(row):
    return row.sum()

df['total'] = df.apply(sum_row, axis=1)
print(df)

运行以上代码，我们将得到如下的DataFrame：

   A   B   C  total
0  1   6  11    18
1  2   7  12    21
2  3   8  13    24
3  4   9  14    27
4  5  10  15    30

以上代码中，我们定义了一个sum_row函数来计算每一行数据的总和，在使用apply函数时将这个函数传递给apply函数，并指定axis=1表示按行进行操作。最终得到了一个新的列’total’，其中存储了每一行数据的总和。

apply函数对多列数据的操作

除了对每一行的数据进行操作，apply函数也可以对多列数据进行操作。假设我们现在有一个新的DataFrame，其中包含了’A’和’B’两列数据，我们想要计算这两列数据的和，可以使用如下的方法：

data = {'A': [1, 2, 3, 4, 5],
        'B': [6, 7, 8, 9, 10]}

df = pd.DataFrame(data)
print(df)

运行以上代码，我们将得到如下的DataFrame：

现在我们定义一个函数来计算两列数据的和，并将这个函数应用到DataFrame的每一行上：

def sum_columns(row):
    return row['A'] + row['B']

df['sum'] = df.apply(sum_columns, axis=1)
print(df)

运行以上代码，我们将得到如下的DataFrame：

   A   B  sum
0  1   6    7
1  2   7    9
2  3   8   11
3  4   9   13
4  5  10   15

以上代码中，我们定义了一个sum_columns函数来计算两列数据的和，在使用apply函数时将这个函数传递给apply函数，并指定axis=1表示按行进行操作。最终得到了一个新的列’sum’，其中存储了每一行数据’A’和’B’列的和。

apply函数在实际数据处理中的应用

apply函数在实际数据处理中非常有用，可以帮助我们完成诸如数据清洗、特征工程等任务。下面我们通过一个示例来演示apply函数在实际数据处理中的应用。

假设我们有一个存储了学生考试成绩的DataFrame，其中包含了数学、英语和物理三科的成绩。我们想要计算每个学生的平均成绩，并将计算结果添加到DataFrame中：

data = {'math': [80, 90, 85, 70, 95],
        'english': [75, 85, 80, 65, 90],
        'physics': [70, 80, 75, 60, 85]}

df = pd.DataFrame(data)
print(df)

运行以上代码，我们将得到如下的DataFrame：

   math  english  physics
0    80       75       70
1    90       85       80
2    85       80       75
3    70       65       60
4    95       90       85

现在我们定义一个函数来计算每个学生的平均成绩，并将这个函数应用到DataFrame的每一行上：

def calculate_avg(row):
    return row.mean()

df['avg_score'] = df.apply(calculate_avg, axis=1)
print(df)

运行以上代码，我们将得到如下的DataFrame：

   math  english  physics  avg_score
0    80       75       70  75.000000
1    90       85       80  85.000000
2    85       80       75  80.000000
3    70       65       60  65.000000
4    95       90       85  90.000000

以上代码中，我们定义了一个calculate_avg函数来计算每个学生的平均成绩，在使用apply函数时将这个函数传递给apply函数，并指定axis=1表示按行进行操作。最终得到了一个新的列’avg_score’，其中存储了每个学生的平均成绩。