pandas排序|极客笔记

pandas排序

在数据分析和处理中，经常需要对数据进行排序以便更好地分析和展示数据之间的关系。pandas是Python中用于数据处理和分析的一个非常强大的库，提供了很多便捷的方法来对数据进行排序。本文将详细介绍pandas中的排序方法及其应用。

1. 按索引排序

pandas中的DataFrame和Series对象都具有sort_index()方法，可以按照索引值对数据进行排序。下面是一个简单的示例：

import pandas as pd

# 创建一个DataFrame
data = {'A': [1, 3, 2], 'B': [4, 6, 5]}
df = pd.DataFrame(data)

# 按索引值升序排序
df_sorted = df.sort_index()
print(df_sorted)

运行结果：

可以看到，原始数据按照索引值升序排序后，数据也做了相应的调整。

2. 按列排序

除了按照索引排序外，我们还可以按照DataFrame中的某一列或多列进行排序。pandas提供了sort_values()方法来实现这一功能。下面是一个示例：

import pandas as pd

# 创建一个DataFrame
data = {'A': [1, 3, 2], 'B': [4, 6, 5]}
df = pd.DataFrame(data)

# 按列'B'升序排序
df_sorted = df.sort_values(by='B')
print(df_sorted)

运行结果：

可以看到，DataFrame根据列’B’进行了升序排序。

在sort_values()方法中，可以传入一个列名或多个列名的列表来指定要排序的列。还可以通过ascending参数来指定排序的方式，True表示升序，False表示降序。

3. 多级索引排序

如果DataFrame具有多级索引，我们也可以按照多级索引的方式对数据进行排序。pandas提供了sort_index()方法来实现这一功能。下面是一个示例：

import pandas as pd

# 创建一个带有多级索引的DataFrame
data = {'A': [1, 3, 2, 5, 4], 'B': [4, 6, 5, 9, 8]}
index = pd.MultiIndex.from_tuples([('one', 'a'), ('one', 'b'), ('two', 'a'), ('two', 'b'), ('three', 'c')], names=['level1', 'level2'])
df = pd.DataFrame(data, index=index)

# 对多级索引进行排序
df_sorted = df.sort_index(level=['level1', 'level2'], ascending=[True, False])
print(df_sorted)

运行结果：

              A  B
level1 level2      
one    b      3  6
       a      1  4
three  c      4  8
two    b      5  9
       a      2  5

通过指定level参数和ascending参数，我们可以对多级索引进行排序。

4. 自定义排序

除了按照索引或列进行排序外，我们还可以自定义排序规则。pandas提供了一个key参数，可以传入一个函数来定义排序规则。下面是一个示例：

import pandas as pd

# 创建一个DataFrame
data = {'A': [1, 3, 2], 'B': [4, 6, 5]}
df = pd.DataFrame(data)

# 自定义排序规则：按绝对值升序排序
df_sorted = df.sort_values(by='A', key=lambda x: x.abs())
print(df_sorted)

运行结果：