Pandas中如何对每一行应用函数|极客笔记

Pandas中如何对每一行应用函数

在数据分析和数据处理中，Pandas是Python中最受欢迎的库之一。它提供了非常强大的数据结构和数据操作工具，使得处理大规模数据变得简单高效。本文将详细介绍如何在Pandas中对DataFrame的每一行应用函数，这是数据预处理和特征工程中常见的需求。

1. Pandas DataFrame 简介

在深入了解如何对每一行应用函数之前，我们首先需要了解Pandas中的基本数据结构DataFrame。DataFrame是一个二维标签数据结构，你可以把它想象成一个Excel表格或者SQL表，其中每列可以是不同的数据类型（数值、字符串、布尔值等）。

示例代码1：创建DataFrame

import pandas as pd

data = {
    'website': ['pandasdataframe.com', 'example.com', 'test.com'],
    'visits': [1000, 1500, 800]
}
df = pd.DataFrame(data)
print(df)

Output:

Pandas中如何对每一行应用函数

2. apply函数基础

apply函数是Pandas中非常强大的工具，它允许你对DataFrame的行或列应用一个函数。这个函数应该接受一个DataFrame的列（或行）作为输入，并返回一个值。apply函数默认作用于DataFrame的列，但你可以通过设置axis=1来改变这一行为，使其作用于行。

示例代码2：对每行应用函数

import pandas as pd

data = {
    'website': ['pandasdataframe.com', 'example.com', 'test.com'],
    'visits': [1000, 1500, 800]
}
df = pd.DataFrame(data)

def check_visits(row):
    if row['visits'] > 1000:
        return 'High'
    else:
        return 'Low'

df['visit_category'] = df.apply(check_visits, axis=1)
print(df)

Output:

Pandas中如何对每一行应用函数

3. 使用lambda函数

在使用apply函数时，你可以使用lambda函数来简化代码。Lambda函数是一种简短的匿名函数，它允许你定义简单的函数而无需显式定义函数。

示例代码3：使用lambda函数

import pandas as pd

data = {
    'website': ['pandasdataframe.com', 'example.com', 'test.com'],
    'visits': [1000, 1500, 800]
}
df = pd.DataFrame(data)

df['visit_category'] = df.apply(lambda row: 'High' if row['visits'] > 1000 else 'Low', axis=1)
print(df)

Output:

Pandas中如何对每一行应用函数

4. 复杂的数据处理

有时，你可能需要进行更复杂的数据处理，比如基于多个列的值计算新的列值。

示例代码4：基于多列的复杂处理

import pandas as pd

data = {
    'website': ['pandasdataframe.com', 'example.com', 'test.com'],
    'visits': [1000, 1500, 800]
}
df = pd.DataFrame(data)

df['info'] = df.apply(lambda row: f"Website: {row['website']} has {row['visits']} visits", axis=1)
print(df)

Output:

Pandas中如何对每一行应用函数

5. 性能考虑

虽然apply函数非常方便，但在处理非常大的数据集时可能会比较慢。在这种情况下，你可能需要考虑使用向量化的方法，或者使用Pandas的内置函数来优化性能。

示例代码5：向量化操作替代apply

import pandas as pd

data = {
    'website': ['pandasdataframe.com', 'example.com', 'test.com'],
    'visits': [1000, 1500, 800]
}
df = pd.DataFrame(data)

df['visit_category'] = ['High' if x > 1000 else 'Low' for x in df['visits']]
print(df)

Output:

Pandas中如何对每一行应用函数

6. 错误处理

在应用函数时，可能会遇到错误。你可以在函数中添加错误处理来确保代码的健壁性。

示例代码6：添加错误处理

import pandas as pd

data = {
    'website': ['pandasdataframe.com', 'example.com', 'test.com'],
    'visits': [1000, 1500, 800]
}
df = pd.DataFrame(data)

def check_visits_safe(row):
    try:
        if row['visits'] > 1000:
            return 'High'
        else:
            return 'Low'
    except KeyError:
        return 'Unknown'

df['visit_category'] = df.apply(check_visits_safe, axis=1)
print(df)

Output:

Pandas中如何对每一行应用函数

7. 使用applymap

除了apply函数，Pandas还提供了applymap函数，它可以对DataFrame中的每个元素应用一个函数。这在需要对数据集中的每个数据点进行转换时非常有用。

示例代码7：使用applymap

import pandas as pd

data = {
    'website': ['pandasdataframe.com', 'example.com', 'test.com'],
    'visits': [1000, 1500, 800]
}
df = pd.DataFrame(data)

df = pd.DataFrame({
    'website': ['pandasdataframe.com', 'example.com', 'test.com'],
    'visits': [1000, 1500, 800]
})
df = df.applymap(lambda x: f"{x}_modified" if isinstance(x, str) else x)
print(df)

8. 结合使用apply和其他Pandas函数

apply函数可以与Pandas中的其他函数结合使用，以实现更复杂的数据处理逻辑。

示例代码8：结合使用apply和groupby

import pandas as pd

data = {
    'website': ['pandasdataframe.com', 'example.com', 'test.com'],
    'visits': [1000, 1500, 800]
}
df = pd.DataFrame(data)

df['group'] = ['A', 'A', 'B']
result = df.groupby('group').apply(lambda x: x['visits'].sum())
print(result)

9. 处理时间序列数据

在处理时间序列数据时，apply函数也可以用来计算滑动窗口等。

示例代码9：时间序列处理

import pandas as pd

data = {
    'website': ['pandasdataframe.com', 'example.com', 'test.com'],
    'visits': [1000, 1500, 800]
}
df = pd.DataFrame(data)

df['date'] = pd.to_datetime(['2021-01-01', '2021-01-02', '2021-01-03'])
df.set_index('date', inplace=True)
df['rolling_sum'] = df['visits'].rolling(window=2).apply(lambda x: x.sum())
print(df)

Output:

Pandas中如何对每一行应用函数