pandas 获取索引值|极客笔记

pandas 获取索引值

在使用 pandas 进行数据处理和分析时，经常需要获取 DataFrame 或 Series 的索引值。索引值可以帮助我们定位和访问数据，进行数据的筛选和操作。本文将详细介绍如何在 pandas 中获取索引值，并且展示一些常用的方法和技巧。

获取 DataFrame 的索引值

首先我们来看看如何获取 DataFrame 的索引值。在 pandas 中，DataFrame 的索引值可以是整数、标签或多层索引。我们可以通过 index 属性来获取 DataFrame 的索引值。

获取整数索引

如果 DataFrame 使用的是默认的整数索引，我们可以直接获取整数索引值。下面是一个简单的示例：

import pandas as pd

data = {
    'A': [1, 2, 3, 4],
    'B': [5, 6, 7, 8]
}

df = pd.DataFrame(data)

print(df.index)

运行以上代码，输出为：

RangeIndex(start=0, stop=4, step=1)

上面输出表示 DataFrame 使用的是整数索引，范围是从 0 到 4（不包括 4），步长为 1。

获取标签索引

如果 DataFrame 使用了标签索引，我们可以通过 index 属性获取标签索引值。下面是一个示例：

import pandas as pd

data = {
    'A': [1, 2, 3, 4],
    'B': [5, 6, 7, 8]
}

df = pd.DataFrame(data, index=['a', 'b', 'c', 'd'])

print(df.index)

运行以上代码，输出为：

Index(['a', 'b', 'c', 'd'], dtype='object')

上面输出表示 DataFrame 使用了标签索引，索引值分别为 ‘a’, ‘b’, ‘c’, ‘d’。

获取多层索引

如果 DataFrame 使用了多层索引（Hierarchical Indexing），我们可以通过 index 属性获取多层索引的值。下面是一个示例：

import pandas as pd

data = {
    'A': [1, 2, 3, 4, 5, 6],
    'B': [7, 8, 9, 10, 11, 12]
}

df = pd.DataFrame(data, index=[['X', 'X', 'X', 'Y', 'Y', 'Y'], [1, 2, 3, 1, 2, 3]], columns=['A', 'B'])

print(df.index)

运行以上代码，输出为：

MultiIndex([('X', 1),
            ('X', 2),
            ('X', 3),
            ('Y', 1),
            ('Y', 2),
            ('Y', 3)],
           )

上面输出表示 DataFrame 使用了多层索引，第一层索引为 ‘X’ 和 ‘Y’，第二层索引为 1、2 和 3。

获取 Series 的索引值

除了 DataFrame，我们还可以获取 Series 的索引值。Series 的索引值也可以是整数、标签或多层索引。

获取整数索引

和 DataFrame 类似，如果 Series 使用的是整数索引，我们可以直接获取整数索引值。下面是一个示例：

import pandas as pd

data = [10, 20, 30, 40]

s = pd.Series(data)

print(s.index)

运行以上代码，输出为：

RangeIndex(start=0, stop=4, step=1)

获取标签索引

如果 Series 使用了标签索引，我们可以通过 index 属性获取标签索引值。下面是一个示例：

import pandas as pd

data = [10, 20, 30, 40]

s = pd.Series(data, index=['a', 'b', 'c', 'd'])

print(s.index)

运行以上代码，输出为：

Index(['a', 'b', 'c', 'd'], dtype='object')

获取多层索引

如果 Series 使用了多层索引，我们可以通过 index 属性获取多层索引的值。下面是一个示例：

import pandas as pd

data = [10, 20, 30, 40, 50, 60]

s = pd.Series(data, index=[['X', 'X', 'X', 'Y', 'Y', 'Y'], [1, 2, 3, 1, 2, 3]])

print(s.index)

运行以上代码，输出为：

MultiIndex([('X', 1),
            ('X', 2),
            ('X', 3),
            ('Y', 1),
            ('Y', 2),
            ('Y', 3)],
           )

使用索引值进行数据查询和操作

获取索引值之后，我们可以使用索引值进行数据的查询和操作。下面是一些常用的操作示例：

使用标签索引进行数据查询

我们可以使用标签索引来查询 DataFrame 或 Series 中的数据。下面是一个示例：

import pandas as pd

data = {
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 30, 40, 50]
}

df = pd.DataFrame(data, index=['a', 'b', 'c', 'd', 'e'])

print(df.loc['b'])

运行以上代码，输出为：

A     2
B    20
Name: b, dtype: int64

上面代码使用标签索引 ‘b’ 查询 DataFrame 中的数据。

使用整数索引进行数据查询

我们可以使用整数索引来查询 DataFrame 或 Series 中的数据。下面是一个示例：

import pandas as pd

data = {
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 30, 40, 50]
}

df = pd.DataFrame(data)

print(df.iloc[2])

运行以上代码，输出为：

A     3
B    30
Name: 2, dtype: int64

上面代码使用整数索引 2 查询 DataFrame 中的数据。

使用多层索引进行数据查询

如果 DataFrame 或 Series 使用了多层索引，我们可以使用多层索引进行数据的查询。下面是一个示例：

import pandas as pd

data = {
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 30, 40, 50]
}

df = pd.DataFrame(data, index=[['X', 'X', 'Y', 'Y', 'Y'], [1, 2, 1, 2, 3]])

print(df.loc[('Y', 2)])

运行以上代码，输出为：

A     4
B    40
Name: (Y, 2), dtype: int64

上面代码使用多层索引 (‘Y’, 2) 查询 DataFrame 中的数据。

总结

通过本文的介绍，我们了解了如何在 pandas 中获取 DataFrame 和 Series 的索引值，并且学会了如何使用索引值进行数据的查询和操作。索引值在 pandas 中具有重要的意义，能够帮助我们快速定位和访问数据，提高数据处理的效率。在实际的数据分析和处理过程中，灵活运用索引值，可以更加方便地进行数据筛选、聚合和可视化分析。

除了本文介绍的方法外，pandas 还提供了许多其他方法和函数来操作索引值，如 reset_index()、set_index()、reindex() 等。在实际应用中，根据具体的需求和场景，选择合适的方法来处理索引值，可以更好地完成数据处理任务。