Pandas中如何对多个列应用函数|极客笔记

Pandas中如何对多个列应用函数

参考：pandas apply function to multiple columns

Pandas是一个强大的Python数据分析库，它提供了许多便捷的功能来处理和分析数据。其中，apply函数是一个非常有用的工具，它可以让用户对DataFrame中的数据进行复杂的转换和操作。本文将详细介绍如何在Pandas中使用apply函数对多个列进行操作。

1. 理解apply函数

在Pandas中，apply函数可以被用来应用一个函数于DataFrame的行或列。当你想对多个列使用同一个函数时，apply函数显得尤为有用。它的基本语法如下：

DataFrame.apply(func, axis=0, raw=False, result_type=None, args=(), **kwds)

func: 要应用的函数
axis: 默认为0，意味着函数应用于每一列，设置为1则应用于每一行
raw: 默认为False，意味着传递给函数的是Series对象，如果是True，则传递的是ndarray对象
result_type: {None, ‘expand’, ‘reduce’, ‘broadcast’}，定义返回DataFrame的形状
args: 传递给函数的额外参数
**kwds: 关键字参数

2. 对多个列应用同一个函数

当你需要对DataFrame中的多个列应用相同的函数时，可以使用apply函数。下面是一些示例代码，展示如何实现这一点。

示例代码1：计算字符串长度

import pandas as pd

# 创建一个DataFrame
df = pd.DataFrame({
    'Column1': ['pandasdataframe.com', 'example1', 'test1'],
    'Column2': ['pandasdataframe.com', 'example2', 'test2']
})

# 定义一个函数，计算字符串长度
def calculate_length(value):
    return len(value)

# 应用函数到多个列
df[['Column1', 'Column2']] = df[['Column1', 'Column2']].applymap(calculate_length)
print(df)

示例代码2：转换为大写

import pandas as pd

# 创建一个DataFrame
df = pd.DataFrame({
    'Column1': ['pandasdataframe.com', 'example1', 'test1'],
    'Column2': ['pandasdataframe.com', 'example2', 'test2']
})

# 定义一个函数，转换字符串为大写
def to_upper(value):
    return value.upper()

# 应用函数到多个列
df[['Column1', 'Column2']] = df[['Column1', 'Column2']].applymap(to_upper)
print(df)

示例代码3：添加后缀

import pandas as pd

# 创建一个DataFrame
df = pd.DataFrame({
    'Column1': ['pandasdataframe.com', 'example1', 'test1'],
    'Column2': ['pandasdataframe.com', 'example2', 'test2']
})

# 定义一个函数，给字符串添加后缀
def add_suffix(value):
    return f"{value}_suffix"

# 应用函数到多个列
df[['Column1', 'Column2']] = df[['Column1', 'Column2']].applymap(add_suffix)
print(df)

3. 对多个列应用不同的函数

有时候，你可能需要对DataFrame中的不同列应用不同的函数。这可以通过使用apply函数结合Python的字典来实现。下面是一些示例代码，展示如何对不同的列应用不同的函数。

示例代码4：不同列使用不同函数

import pandas as pd

# 创建一个DataFrame
df = pd.DataFrame({
    'Column1': ['pandasdataframe.com', 'example1', 'test1'],
    'Column2': [10, 20, 30]
})

# 定义一个函数字典
functions = {
    'Column1': lambda x: x.upper(),
    'Column2': lambda x: x * 10
}

# 应用不同的函数到不同的列
df = df.apply(lambda col: col.apply(functions[col.name]))
print(df)

Output:

Pandas中如何对多个列应用函数

示例代码5：条件函数应用

import pandas as pd

# 创建一个DataFrame
df = pd.DataFrame({
    'Column1': ['pandasdataframe.com', 'example1', 'test1'],
    'Column2': [10, 20, 30],
    'Column3': ['pandasdataframe.com', 'example3', 'test3']
})

# 定义一个条件函数
def custom_func(col):
    if col.name == 'Column1':
        return col.apply(lambda x: x.upper())
    elif col.name == 'Column2':
        return col * 10
    else:
        return col.apply(lambda x: f"{x}_modified")

# 应用条件函数到每一列
df = df.apply(custom_func)
print(df)

Output:

Pandas中如何对多个列应用函数

4. 使用apply函数处理复杂逻辑

apply函数不仅限于简单的数据转换，它也可以用来处理更复杂的数据逻辑。例如，你可以在函数中结合多个列的数据来生成新的列数据。下面是一些示例代码，展示如何使用apply函数来处理复杂逻辑。

示例代码6：基于多列数据生成新列

import pandas as pd

# 创建一个DataFrame
df = pd.DataFrame({
    'Column1': ['pandasdataframe.com', 'example1', 'test1'],
    'Column2': [10, 20, 30],
    'Column3': ['pandasdataframe.com', 'example3', 'test3']
})

# 定义一个函数，基于Column1和Column3生成新的列
def generate_new_column(row):
    return f"{row['Column1']}_{row['Column3']}"

# 使用apply函数生成新列
df['NewColumn'] = df.apply(generate_new_column, axis=1)
print(df)

Output:

Pandas中如何对多个列应用函数

示例代码7：复杂条件下的列操作

import pandas as pd

# 创建一个DataFrame
df = pd.DataFrame({
    'Column1': ['pandasdataframe.com', 'example1', 'test1'],
    'Column2': [10, 20, 30],
    'Column3': ['pandasdataframe.com', 'example3', 'test3']
})

# 定义一个复杂的函数，根据条件修改数据
def complex_operation(row):
    if row['Column2'] > 15:
        return row['Column1'].upper()
    else:
        return row['Column3'].lower()

# 使用apply函数应用复杂的列操作
df['Result'] = df.apply(complex_operation, axis=1)
print(df)

Output:

Pandas中如何对多个列应用函数

5. 性能考虑

虽然apply函数非常强大和灵活，但它可能不是处理大数据集时的最佳选择，因为apply函数通常比Pandas的内置向量化方法慢。在处理大规模数据时，应优先考虑使用Pandas的向量化方法，如使用vectorize函数或直接操作Pandas的内置函数。

示例代码8：向量化替代apply

import pandas as pd
import numpy as np

# 创建一个DataFrame
df = pd.DataFrame({
    'Column1': ['pandasdataframe.com', 'example1', 'test1'],
    'Column2': [10, 20, 30],
    'Column3': ['pandasdataframe.com', 'example3', 'test3']
})

# 使用向量化方法转换为大写
df['Column1'] = df['Column1'].str.upper()

# 使用向量化方法计算数值列的平方
df['Column2'] = np.square(df['Column2'])
print(df)

Output:

Pandas中如何对多个列应用函数

示例代码9：使用where方法优化条件操作

import pandas as pd

# 创建一个DataFrame
df = pd.DataFrame({
    'Column1': ['pandasdataframe.com', 'example1', 'test1'],
    'Column2': [10, 20, 30],
    'Column3': ['pandasdataframe.com', 'example3', 'test3']
})

# 使用Pandas的where方法进行条件操作
df['Column2'] = df['Column2'].where(df['Column2'] > 15, other=df['Column2'] * 10)
print(df)

Output:

Pandas中如何对多个列应用函数