pandas apply lambda函数|极客笔记

pandas apply lambda函数

Pandas 是一个强大的 Python 数据分析库，它提供了许多工具和方法来处理和分析数据。在处理 DataFrame 和 Series 对象时，apply() 函数是一个非常有用的工具，它允许用户对数据应用一个函数。结合使用 lambda 函数，apply() 可以实现更灵活的数据操作。本文将详细介绍如何在 Pandas 中使用 apply() 结合 lambda 函数，并通过多个示例展示其用法。

1. apply() 函数简介

在 Pandas 中，apply() 函数可以被用于 Series 和 DataFrame 对象，允许对数据集的行或列应用一个函数。这个函数可以是一个已经定义的函数，也可以是一个匿名的 lambda 函数。

示例代码 1：对 Series 应用 lambda 函数

import pandas as pd

# 创建一个 Series 对象
s = pd.Series([20, 21, 12], index=['pandasdataframe.com', 'b', 'c'])

# 使用 apply() 应用 lambda 函数，增加 10
result = s.apply(lambda x: x + 10)
print(result)

Output:

pandas apply lambda函数

示例代码 2：对 DataFrame 的单列使用 lambda 函数

import pandas as pd

# 创建一个 DataFrame 对象
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6]
}, index=['pandasdataframe.com', 'b', 'c'])

# 对列 'A' 应用 lambda 函数，计算平方
result = df['A'].apply(lambda x: x**2)
print(result)

Output:

pandas apply lambda函数

2. 在 DataFrame 的多列上使用 apply()

apply() 函数不仅可以应用于单个列，也可以应用于多列。通过设置 axis 参数，可以控制函数是沿着行还是列应用。

示例代码 3：对 DataFrame 的每行使用 lambda 函数

import pandas as pd

# 创建一个 DataFrame
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6]
}, index=['pandasdataframe.com', 'b', 'c'])

# 对每行应用 lambda 函数，求行的最大值
result = df.apply(lambda row: max(row), axis=1)
print(result)

Output:

pandas apply lambda函数

示例代码 4：对 DataFrame 的每列使用 lambda 函数

import pandas as pd

# 创建一个 DataFrame
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6]
}, index=['pandasdataframe.com', 'b', 'c'])

# 对每列应用 lambda 函数，计算每列的平均值
result = df.apply(lambda col: col.mean(), axis=0)
print(result)

Output:

pandas apply lambda函数

3. 使用条件语句在 lambda 函数中

Lambda 函数支持使用条件语句，这使得在 apply() 中实现条件逻辑变得可能。

示例代码 5：在 lambda 函数中使用条件语句

import pandas as pd

# 创建一个 DataFrame
df = pd.DataFrame({
    'A': [10, 20, 30],
    'B': [100, 50, -30]
}, index=['pandasdataframe.com', 'b', 'c'])

# 使用条件语句在 lambda 函数中
result = df.apply(lambda x: x + 10 if x.name == 'A' else x - 10, axis=0)
print(result)

Output:

pandas apply lambda函数

4. 结合使用 apply() 和其他 Pandas 函数

apply() 函数可以与 Pandas 中的其他函数结合使用，以实现更复杂的数据处理任务。

示例代码 6：结合使用 apply() 和 str 方法

import pandas as pd

# 创建一个 DataFrame
df = pd.DataFrame({
    'A': ['foo', 'bar', 'baz'],
    'B': ['one', 'two', 'three']
}, index=['pandasdataframe.com', 'b', 'c'])

# 使用 apply() 结合 str.upper() 方法
result = df['A'].apply(lambda x: x.upper())
print(result)

Output:

pandas apply lambda函数

示例代码 7：使用 apply() 结合数学函数

import pandas as pd
import numpy as np

# 创建一个 DataFrame
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6]
}, index=['pandasdataframe.com', 'b', 'c'])

# 使用 apply() 结合 numpy 的 log 函数
result = df.apply(lambda x: np.log(x))
print(result)

Output:

pandas apply lambda函数

5. 性能考虑

虽然 apply() 函数非常灵活和强大，但在处理大型数据集时，它可能不是最高效的方法。在可能的情况下，使用 Pandas 的内置向量化方法通常会提供更好的性能。

示例代码 8：比较 apply() 和向量化操作的性能

import pandas as pd
import numpy as np

# 创建一个大型 DataFrame
df = pd.DataFrame({
    'A': np.random.rand(10000),
    'B': np.random.rand(10000)
}, index=['pandasdataframe.com' + str(i) for i in range(10000)])

# 使用 apply()
result_apply = df.apply(np.sum, axis=0)

# 使用向量化操作
result_vectorized = df.sum(axis=0)