pandas 重新索引|极客笔记

pandas 重新索引

在 pandas 中，重新索引是指根据新的索引标签重新排列数据。通过重新索引，我们可以实现对数据的重新排序、重新采样和填充缺失值等操作。在本文中，我们将详细介绍 pandas 中重新索引的用法和示例。

1. `reindex()` 方法

pandas 中的 reindex() 方法是重新索引的核心方法，它可以接受一个新的索引标签列表，并根据这些标签重新排列原始数据。下面是 reindex() 方法的基本语法：

df.reindex(index=new_index, columns=new_columns)

其中，df 是我们要重新索引的 DataFrame 对象，new_index 和 new_columns 分别是新的行索引和列索引列表。要注意的是，在实际使用中，我们通常只会重新索引行索引，而列索引很少会改变。

2. 重新索引行索引

接下来，我们通过一个示例来演示如何重新索引行索引。假设我们有以下的 DataFrame：

import pandas as pd

data = {
    'A': [1, 2, 3],
    'B': [4, 5, 6]
}

df = pd.DataFrame(data)
print("原始数据：")
print(df)

运行以上代码会输出原始数据如下：

现在，我们来重新索引行索引为 ['a', 'b', 'c']：

new_index = ['a', 'b', 'c']
df_reindexed = df.reindex(index=new_index)
print("重新索引后的数据：")
print(df_reindexed)

运行以上代码会输出重新索引后的数据如下：

     A    B
a  1.0  4.0
b  2.0  5.0
c  3.0  6.0

可以看到，原始数据中的行索引被重新排序为 ['a', 'b', 'c']，缺失值用 NaN 填充。

3. 重新索引填充缺失值

在上面的示例中，我们可以看到重新索引时缺失值会被用 NaN 填充。如果我们想要使用特定的值来填充缺失值，可以通过 fill_value 参数来指定。接下来，我们将展示一个示例：

new_index = ['a', 'b', 'c']
df_filled = df.reindex(index=new_index, fill_value=0)
print("重新索引并填充缺失值后的数据：")
print(df_filled)

运行以上代码会输出重新索引并填充缺失值后的数据如下：

可以看到，缺失值被填充为了指定的值 0。

4. 重新索引时的插值方法

除了填充缺失值外，我们还可以通过 method 参数指定插值方法来处理缺失值，常用的插值方法有 ffill（向前填充）和 bfill （向后填充）。接下来，我们通过一个示例来演示：

new_index = [0, 1, 2, 3]
df_interpolated = df.reindex(index=new_index, method='ffill')
print("重新索引并插值后的数据：")
print(df_interpolated)

运行以上代码会输出重新索引并插值后的数据如下：

可以看到，缺失值被用相邻的数值填充。

5. 总结

通过本文的介绍，我们了解了 pandas 中重新索引的基本用法和常见参数设置，包括填充缺失值和插值方法等。重新索引给我们提供了灵活的数据重组和重排功能，让我们能够更方便地处理数据分析中的各种情况。

pandas 重新索引