Pandas：如何重新排列Pandas列的顺序

在本文中，我们将介绍使用Pandas重新排列数据框的列顺序的不同方法和技巧。无论您是处理大型数据集还是小规模数据集的数据分析师，Pandas都是您应该非常熟悉和熟练掌握的工具之一。然而，在使用Pandas时，有时您希望重新排列数据框的列顺序，以便更好地提供数据可视化或更好地理解数据的内部结构。在本文中，我们将讨论几种方法和技巧。

阅读更多：Pandas 教程

1.使用.reindex(columns=)函数重新索引列

.reindex()函数是重新排列Pandas数据框中的行和列的最佳方法之一。如果我们只是需要重新索引列并保留所有行，则可以使用.reindex(columns=)，其中列的顺序用列表传递。让我们看一个简单的示例：

import pandas as pd

#创建示例数据框
df = pd.DataFrame({'A': [1,2,3], 'B':[4,5,6], 'C':[7,8,9]})

#重新排列列的顺序
df = df.reindex(columns=['B', 'A', 'C'])

print(df)

这将输出以下内容：

2.使用.loc()函数重新索引列顺序

.loc()函数可用于重新排列数据框的列顺序和选择特定列。对于列重新索引，.loc()函数的使用与.reindex()函数非常相似。下面是一个简单的示例：

import pandas as pd

#创建示例数据框
df = pd.DataFrame({'A': [1,2,3], 'B':[4,5,6], 'C':[7,8,9]})

#重新排列列的顺序
df = df.loc[:, ['B', 'A', 'C']]

print(df)

这将输出以下内容：

请注意，.loc()函数的前一个参数是行的选择，而后一个参数是列的选择。如果您使用.loc()函数重新选择特定的行和列，则可以同时更改列的顺序。例如：

import pandas as pd

#创建示例数据框
df = pd.DataFrame({'A': [1,2,3], 'B':[4,5,6], 'C':[7,8,9]})

#重新排列列的顺序并选择特定的行
df = df.loc[[0,2], ['B', 'A', 'C']]

print(df)

这将输出以下内容：

   B  A  C
0  4  1  7
2  6  3  9

我们只选择了第1行和第3行，并按我们想要的顺序重新排列了列。这是.loc()函数的强大之处，因为您可以在选择行和列的同时更改列的顺序（以及重新索引行，如果需要的话）。

3.使用.drop()函数删除列并在.insert()函数中重新插入它们来重新排列列的顺序

.drop()函数可用于删除Pandas数据框的列。如果您要删除一列并在不同的位置重新插入它，则可以使用.insert()函数，该函数在指定的位置将列插入数据框中。下面是一个简单的示例：

import pandas as pd

#创建示例数据框
df = pd.DataFrame({'A': [1,2,3], 'B':[4,5,6], 'C':[7,8,9]})

#删除需要重新排列的列
df =df.drop('A', axis=1)

#在新位置重新插入已删除的列
df.insert(1, 'A', [1,2,3])

print(df)

这将输出以下内容：

通过将列从它们的原始位置删除并在需要重新排列的位置重新插入它们，我们可以轻松地重新排列Pandas数据框的列。但是请注意，这种方法需要额外的步骤，因为我们不能简单地移动列（例如，我们必须删除列并重新插入它们），而且可能更慢，因为我们必须更改多个数据框的切片。

4.使用numpy的.argsort()和.iloc()函数重新排列列

numpy.argsort()函数可用于获取数字数组的排列顺序。这对于Pandas数据框很有用，因为我们可以使用.argsort()函数获取每列的排列索引，然后通过使用.iloc()函数以索引的方式将每列按排序顺序排列。下面是一个简单的示例：

import pandas as pd
import numpy as np

#创建示例数据框
df = pd.DataFrame({'A': [1,2,3], 'B':[4,5,6], 'C':[9,8,7]})

#获取列的排序索引
sort_order = np.argsort(df.iloc[0])

#根据排序索引重新排列列
df = df.iloc[:, sort_order]

print(df)

这将输出以下内容：

在这个例子中，我们首先使用.iloc()函数选择数据框中的第一行，然后使用.argsort()函数获取每列的排列索引。然后，我们对每列进行重新排列，并使用.iloc()函数选择所有行并按照新的排序顺序选择列。

5.使用.columns属性重新排列列

最后，一种简单但却非常有效的重新排列列的方法是直接使用.columns属性。这是Pandas数据框的一部分，用于访问列的标签，因此我们可以使用.columns将原始列列表替换为按新顺序排序的新列表。下面是一个简单的示例：

import pandas as pd

#创建示例数据框
df = pd.DataFrame({'A': [1,2,3], 'B':[4,5,6], 'C':[7,8,9]})

#重新排列列
df.columns = ['B', 'A', 'C']

print(df)

这将输出以下内容：

虽然这种方法简单快捷，但它不能克隆数据框，并且在使用大型数据集时可能会变得不实用。

总结

本文介绍了使用Pandas重新排列数据框的列顺序的5种不同方法和技巧。无论是使用.reindex()函数，.loc()函数还是.drop()函数和.insert()函数，numpy的.argsort()和.iloc()函数，还是直接使用.columns属性，每种方法都有其优点和缺点。根据您自己的项目需求和数据集大小，您可能会选择使用其中的一种或几种方法。最重要的是，您现在知道了如何在Pandas中重新排列列，以便更好地提供数据可视化或更好地理解数据的内部结构。