Pandas遍历DataFrame

简介

在数据分析和处理中，Pandas是一个非常强大和流行的库。它提供了大量的数据结构和函数，使我们能够方便地进行数据处理、分析和可视化。而DataFrame是Pandas库中最重要的数据结构之一，它类似于一个二维数组或表格，可以用来存储和操作结构化数据。

DataFrame的强大之处在于它提供了许多遍历和操作数据的方法。本文将详细介绍Pandas库中遍历DataFrame的几种常用方法，以及它们的使用场景和注意事项。

方法1：iterrows()

iterrows()方法允许我们按行迭代DataFrame。它返回一个迭代器，可以在每次迭代中获得每一行的索引和数据。

下面是iterrows()方法的示例代码：

import pandas as pd

# 创建一个DataFrame
data = {'姓名': ['张三', '李四', '王五'],
        '年龄': [20, 25, 30],
        '城市': ['北京', '上海', '广州']}
df = pd.DataFrame(data)

# 使用iterrows()方法迭代DataFrame
for index, row in df.iterrows():
    print(index, row['姓名'], row['年龄'], row['城市'])

运行结果如下：

0 张三 20 北京
1 李四 25 上海
2 王五 30 广州

可以看到，通过iterrows()方法，我们可以获取每一行的索引及对应的数据。在迭代过程中，可以使用row[‘列名’]来访问每一列的值。

需要注意的是，iterrows()方法返回的是一个迭代器，每次迭代都会生成一对索引和数据的元组。由于这种方式在大型DataFrame中效率较低，因此在处理大量数据时建议使用其他方法。

方法2：itertuples()

itertuples()方法比iterrows()方法更高效。它返回一个迭代器，每次迭代生成一个命名元组，包含了行的索引及各列的值。

下面是itertuples()方法的示例代码：

import pandas as pd

# 创建一个DataFrame
data = {'姓名': ['张三', '李四', '王五'],
        '年龄': [20, 25, 30],
        '城市': ['北京', '上海', '广州']}
df = pd.DataFrame(data)

# 使用itertuples()方法迭代DataFrame
for row in df.itertuples():
    print(row.Index, row.姓名, row.年龄, row.城市)

运行结果如下：

0 张三 20 北京
1 李四 25 上海
2 王五 30 广州

通过itertuples()方法迭代DataFrame，我们可以像访问命名元组一样，通过row.列名的方式来访问每一列的值，这比使用row[‘列名’]更高效。此外，row.Index可以获得每一行的索引。

需要注意的是，itertuples()方法返回的迭代器生成的是具有命名元组结构的对象，而不是原始数据类型。因此，在某些情况下，可能需要将其转换为其他的数据结构。

方法3：items()

items()方法允许我们按列遍历DataFrame。它返回一个迭代器，每次迭代生成一对包含列名和该列数据的元组。

下面是items()方法的示例代码：

import pandas as pd

# 创建一个DataFrame
data = {'姓名': ['张三', '李四', '王五'],
        '年龄': [20, 25, 30],
        '城市': ['北京', '上海', '广州']}
df = pd.DataFrame(data)

# 使用items()方法遍历DataFrame的列
for column_name, series in df.items():
    print(column_name)
    print(series)

运行结果如下：

姓名
0    张三
1    李四
2    王五
Name: 姓名, dtype: object
年龄
0    20
1    25
2    30
Name: 年龄, dtype: int64
城市
0    北京
1    上海
2    广州
Name: 城市, dtype: object

通过items()方法，我们可以分别获取每一列的列名和该列的数据。在迭代过程中，可以通过column_name来访问列名，通过series来访问该列的数据。

需要注意的是，由于DataFrame可以包含不同的数据类型，因此series的数据类型可能会有所不同。

方法4：apply()

apply()方法允许我们按行或列应用自定义函数。它可以在DataFrame上的每一行或每一列上执行特定的操作，并返回一个Series或DataFrame。

下面是apply()方法的示例代码：

import pandas as pd

# 创建一个DataFrame
data = {'姓名': ['张三', '李四', '王五'],
        '年龄': [20, 25, 30],
        '城市': ['北京', '上海', '广州']}
df = pd.DataFrame(data)

# 定义一个自定义函数，用于处理年龄列
def process_age(age):
    if age < 25:
        return '年轻'
    else:
        return '成熟'

# 将自定义函数应用于年龄列
df['年龄处理结果'] = df['年龄'].apply(process_age)

# 输出处理结果
print(df)

运行结果如下：

  姓名  年龄  城市 年龄处理结果
0  张三  20  北京     年轻
1  李四  25  上海    成熟
2  王五  30  广州    成熟

在上述示例中，我们定义了一个自定义函数process_age()，用于根据年龄判断一个人是“年轻”还是“成熟”。然后，我们通过apply()方法将该函数应用于年龄列，并将处理结果存储到一个新的列“年龄处理结果”中。

需要注意的是，apply()方法默认按行应用函数，即将函数应用于每一行的值。如果要按列应用函数，可以通过设置axis参数为1来实现。

方法5：applymap()

applymap()方法允许我们按元素应用自定义函数。它可以在DataFrame的每个元素上执行特定的操作，并返回一个新的DataFrame。

下面是applymap()方法的示例代码：

import pandas as pd

# 创建一个DataFrame
data = {'姓名': ['张三', '李四', '王五'],
        '年龄': [20, 25, 30],
        '城市': ['北京', '上海', '广州']}
df = pd.DataFrame(data)

# 定义一个自定义函数，用于处理字符串列
def add_hello(name):
    return 'Hello ' + name

# 将自定义函数应用于DataFrame的每个元素
df = df.applymap(add_hello)

# 输出处理结果
print(df)

运行结果如下：

        姓名        年龄        城市
0  Hello 张三  Hello 20  Hello 北京
1  Hello 李四  Hello 25  Hello 上海
2  Hello 王五  Hello 30  Hello 广州

在上述示例中，我们定义了一个自定义函数add_hello()，用于在字符串前面添加”Hello”前缀。然后，我们通过applymap()方法将该函数应用于DataFrame的每个元素，并将处理结果存储到新的DataFrame中。

需要注意的是，applymap()方法仅适用于DataFrame对象，而不适用于Series对象。如果要在Series上应用自定义函数，可以使用apply()方法。

方法6：使用迭代器

除了上述的内置方法，还可以使用迭代器实现遍历DataFrame的灵活性。通过迭代器，我们可以自由地遍历行、列以及单个元素等。

一种常见的迭代方法是使用iterrows()或itertuples()方法获取每一行的索引和数据。然后，我们可以在循环中对每一行进行处理，或者按需求选择所需的数据进行操作。

以下是使用迭代器遍历DataFrame的示例代码：

import pandas as pd

# 创建一个DataFrame
data = {'姓名': ['张三', '李四', '王五'],
        '年龄': [20, 25, 30],
        '城市': ['北京', '上海', '广州']}
df = pd.DataFrame(data)

# 遍历每一行
for index, row in df.iterrows():
    # 访问每一列的值
    name = row['姓名']
    age = row['年龄']
    city = row['城市']
    # 打印每一行的数据
    print(index, name, age, city)

# 遍历每一列
for column_name, series in df.items():
    # 打印列名
    print(column_name)
    # 访问列的值
    for value in series:
        print(value)

# 遍历每个元素
for index, row in df.iterrows():
    for column_name, value in row.iteritems():
        print(f"索引: {index}, 列名: {column_name}, 值: {value}")

通过使用迭代器，我们可以根据具体的需求来访问和处理DataFrame的行、列或元素。这种方法提供了更大的灵活性和控制性，适用于复杂的数据操作场景。