pandas 调整列的顺序|极客笔记

pandas 调整列的顺序

在进行数据处理时，我们经常需要调整数据框(DataFrame)中列的顺序。pandas 是 Python 中一个非常常用的数据分析库，提供了丰富的函数和方法来帮助我们处理和分析数据。本文将详细介绍如何使用 pandas 调整列的顺序。

1. 创建示例数据

首先，让我们创建一个示例数据，以便后续演示调整列顺序的方法。

import pandas as pd

data = {
    'A': [1, 2, 3, 4, 5],
    'B': ['apple', 'banana', 'cherry', 'date', 'elderberry'],
    'C': [0.1, 0.2, 0.3, 0.4, 0.5]
}

df = pd.DataFrame(data)
print(df)

运行以上代码，我们将创建一个包含三列的数据框df：

   A          B    C
0  1      apple  0.1
1  2     banana  0.2
2  3     cherry  0.3
3  4       date  0.4
4  5  elderberry  0.5

2. 使用 reindex 方法调整列的顺序

pandas 的 reindex 方法可以用来重新索引数据框的行和列，从而实现调整列顺序的功能。我们可以将需要的列按照新的顺序传递给 reindex 方法，即可得到排序后的数据框。

new_order = ['B', 'A', 'C']
df = df.reindex(columns=new_order)
print(df)

运行以上代码，我们将得到一个新的数据框df，列的顺序为B, A, C：

           B  A    C
0      apple  1  0.1
1     banana  2  0.2
2     cherry  3  0.3
3       date  4  0.4
4  elderberry  5  0.5

3. 使用 loc 方法调整列的顺序

除了 reindex 方法外，我们还可以使用 loc 方法来调整列的顺序。通过重新选择列的顺序，我们可以得到调整后的数据框。

new_order = ['B', 'C', 'A']
df = df.loc[:, new_order]
print(df)

运行以上代码，我们将得到一个新的数据框df，列的顺序为B, C, A：

           B    C  A
0      apple  0.1  1
1     banana  0.2  2
2     cherry  0.3  3
3       date  0.4  4
4  elderberry  0.5  5

4. 使用 insert 方法插入列到指定位置

除了调整已有列的顺序外，我们还可以使用 insert 方法在指定位置插入新的列。

new_column = pd.Series(['red', 'blue', 'green', 'yellow', 'purple'])
df.insert(loc=1, column='Color', value=new_column)
print(df)

运行以上代码，我们将在数据框df的第二列位置插入了一列Color：

           B  Color    C  A
0      apple    red  0.1  1
1     banana   blue  0.2  2
2     cherry  green  0.3  3
3       date yellow  0.4  4
4  elderberry purple  0.5  5