pandas重置索引|极客笔记

pandas重置索引

在使用pandas进行数据处理时，经常会遇到需要重置索引的情况。重置索引是指将现有的索引列重新排列或者设置为默认的数字索引，这在处理数据时十分常见且有着重要的作用。本文将详细讨论pandas中如何重置索引，包括重置为默认的数字索引，设置新的索引列或者多级索引。

1. 重置为默认的数字索引

1.1 单个索引列

我们首先来看如何将DataFrame中的单个索引列重置为默认的数字索引。假设我们有一个包含学生信息的DataFrame，其中索引是学生的学号：

import pandas as pd

data = {'姓名': ['张三', '李四', '王五'],
        '年龄': [20, 21, 22],
        '成绩': [85, 90, 88]}

df = pd.DataFrame(data, index=['1001', '1002', '1003'])

现在我们可以使用reset_index()方法来重置索引：

df_reset = df.reset_index()

运行以上代码后，df_reset将会变成以下形式：

  index  姓名  年龄  成绩
0  1001  张三  20  85
1  1002  李四  21  90
2  1003  王五  22  88

可以看到，原来的学号索引被重置为默认的数字索引，而原来的索引列则变为了一个新的列。

1.2 保留原索引列

如果我们希望保留原来的索引列，可以使用drop=True参数：

df_reset_keep = df.reset_index(drop=True)

运行以上代码后，df_reset_keep将会变成以下形式：

   姓名  年龄  成绩
0  张三  20  85
1  李四  21  90
2  王五  22  88

原来的学号索引列保留在DataFrame中，同时设置了默认的数字索引。

2. 设置新的索引列

除了将索引重置为默认的数字索引外，我们还可以设置新的索引列。假设我们希望将学生的姓名作为新的索引列：

df.set_index('姓名', inplace=True)

运行以上代码后，df将会变成以下形式：

     年龄  成绩
姓名          
张三  20  85
李四  21  90
王五  22  88

可以看到，原来的学号索引被替换为了姓名索引列。

3. 设置多级索引

在某些情况下，我们可能需要设置多级索引，以更好地组织和表示数据。我们可以使用set_index()方法来设置多级索引。假设我们希望将学生的姓名和年龄作为多级索引：

df.set_index(['姓名', '年龄'], inplace=True)

运行以上代码后，df将会变成以下形式：

         成绩
姓名 年龄     
张三 20  85
李四 21  90
王五 22  88

可以看到，现在的索引由姓名和年龄两个级别组成，这样可以更清晰地表示数据的结构。

结语

通过本文的介绍，我们了解了在pandas中如何重置索引，包括重置为默认的数字索引、设置新的索引列和设置多级索引。

pandas重置索引