pandas怎么设置列作为索引|极客笔记

pandas怎么设置列作为索引

在使用pandas处理数据时，经常需要设置列作为索引。设置列作为索引可以方便进行数据的筛选、排序和聚合操作。本文将介绍如何使用pandas设置列作为索引，以及这样做的一些注意事项和常见用法。

1. 设置单列作为索引

首先，我们来看如何将单列设置为DataFrame的索引。在pandas中，可以使用set_index方法来实现这一操作。下面是一个示例：

import pandas as pd

# 创建一个示例DataFrame
data = {'A': [1, 2, 3, 4],
        'B': ['foo', 'bar', 'foo', 'bar'],
        'C': [0.1, 0.2, 0.3, 0.4]}

df = pd.DataFrame(data)

# 将列'A'设置为索引
df.set_index('A', inplace=True)

print(df)

运行以上代码，可以得到如下结果：

     B    C
A          
1  foo  0.1
2  bar  0.2
3  foo  0.3
4  bar  0.4

可以看到，列’A’已经被设置为索引，并显示在了最左侧。

2. 设置多列作为索引

除了设置单列作为索引，还可以设置多列作为索引。在set_index方法中传入多个列名即可实现这一操作。下面是一个示例：

import pandas as pd

# 创建一个示例DataFrame
data = {'A': [1, 2, 3, 4],
        'B': ['foo', 'bar', 'foo', 'bar'],
        'C': [0.1, 0.2, 0.3, 0.4]}

df = pd.DataFrame(data)

# 将列'A'和列'B'设置为索引
df.set_index(['A', 'B'], inplace=True)

print(df)

运行以上代码，可以得到如下结果：

          C
A B        
1 foo  0.1
2 bar  0.2
3 foo  0.3
4 bar  0.4

可以看到，列’A’和列’B’被设置为索引，并按照设置的顺序显示在了最左侧。

3. 重置索引

有时候，我们可能需要将索引恢复为普通的整数序列，可以使用reset_index方法来实现。下面是一个示例：

import pandas as pd

# 创建一个示例DataFrame
data = {'A': [1, 2, 3, 4],
        'B': ['foo', 'bar', 'foo', 'bar'],
        'C': [0.1, 0.2, 0.3, 0.4]}

df = pd.DataFrame(data)

# 将列'A'设置为索引
df.set_index('A', inplace=True)

# 重置索引
df.reset_index(inplace=True)

print(df)

运行以上代码，可以得到如下结果：

   A    B    C
0  1  foo  0.1
1  2  bar  0.2
2  3  foo  0.3
3  4  bar  0.4

可以看到，索引已经被恢复为普通的整数序列。

4. 使用`inplace`参数

在上面的示例中，我们多次使用了inplace=True参数来直接在原始DataFrame上进行修改。如果不使用inplace参数，set_index和reset_index方法将返回一个新的DataFrame，而不会修改原始DataFrame。根据具体需求选择是否使用inplace参数。