Python Pandas CategoricalIndex – 使用输入对应关系（如字典）映射值

在 Pandas 中，CategoricalIndex 是一种特殊的索引类型，它可以表示分类变量。如果在 DataFrame 中有一个分类变量列，可以使用 Pandas 的 CategoricalIndex 类型，将其转换为分类变量索引，以提高数据访问效率。

在本篇文章中，我们将详细介绍如何使用输入对应关系（如字典）映射分类变量，帮助您更深入学习 Pandas CategoricalIndex 的使用方法。

创建CategoricalIndex

在创建 Pandas DataFrame 时，可以通过 pd.Categorical() 函数将列的数据类型指定为分类变量。例如，我们创建一个名为 df 的 DataFrame，其中包含两列：”gender” 和 “class”，其中 “gender” 列的数据类型为 Categorical。

import pandas as pd

df = pd.DataFrame({
    "gender": pd.Categorical(["male", "female", "male", "female"]),
    "class": ["A", "A", "B", "B"]
})

print(df)

代码输出：

   gender class
0    male     A
1  female     A
2    male     B
3  female     B

现在，我们可以通过 df.index 访问 DataFrame 的行索引。这时候，CategoricalIndex 就会自动创建。

print(df.index)

代码输出：

CategoricalIndex(['male', 'female', 'male', 'female'], categories=['female', 'male'], ordered=False, name='gender', dtype='category')

这个 CategoricalIndex 的输出结果包含了四个索引标签：’male’, ‘female’, ‘male’, ‘female’，标签类型为 Categorical。

使用映射字典

我们还可以使用映射字典来创建 CategoricalIndex，并在 DataFrame 中使用该索引。首先，我们创建一个名为 fruit 的 DataFrame，其中包含三列：”fruit”、”count” 和 “price”，其中 “fruit” 列的数据类型为 Categorical。

fruit = pd.DataFrame({
    "fruit": pd.Categorical(["apple", "banana", "orange", "orange"]),
    "count": [3, 9, 2, 7],
    "price": [1.2, 2.1, 0.8, 0.9]
})

现在，我们可以创建一个字典对象，将字典中的 fruit 变量映射到其对应的编号。

fruit_dict = {
    "apple": 0,
    "banana": 1,
    "orange": 2
}

接下来，我们可以使用 pd.Categorical.from_codes() 函数，将 fruit 列转换为整数，然后创建新的 DataFrame。

fruit["fruit_id"] = pd.Categorical.from_codes(fruit["fruit"].map(fruit_dict),
                                               categories=['apple', 'banana', 'orange'],
                                               ordered=False)

print(fruit)

代码输出：

    fruit  count  price fruit_id
0   apple      3    1.2        0
1  banana      9    2.1        1
2  orange      2    0.8        2
3  orange      7    0.9        2

fruit_id 列现在是一个 CategoricalIndex 对象，其中的值由字典 fruit_dict 根据映射关系生成。

我们还可以通过 pd.CategoricalIndex() 函数，将 fruit_id 列转换为分类变量索引。这个函数的参数包括原始数组、分类名称、分类标签等。

fruit.index = pd.CategoricalIndex(fruit["fruit_id"], ordered=True, name="fruit")

print(fruit)

代码输出：

        fruit  count  price fruit_id
fruit                               
0       apple      3    1.2        0
1      banana      9    2.1        1
2      orange      2    0.8        2
2      orange      7    0.9        2

使用分类变量索引进行数据访问

现在，我们可以开始使用分类变量索引进行数据访问。例如，我们可以使用 .loc[] 属性按索引标签访问数据。这个属性可以使用行和列名称，还可以使用布尔索引和比较操作符。

# 访问某个水果的数据
print(fruit.loc["apple"])

# 访问某个价格区间的数据
print(fruit.loc[fruit["price"] > 1])

代码输出：

        fruit  count  price fruit_id
fruit                               
0       apple      3    1.2        0

        fruit  count  price fruit_id
fruit                               
0       apple      3    1.2        0
1      banana      9    2.1        1

在这些示例中，我们可以看到，CategoricalIndex 可以与 Pandsa 的其他索引进行无缝协作。