Python Pandas CategoricalIndex – 添加新类别

在使用 Pandas 库进行数据分析的过程中，CategoricalIndex 是一种非常常见的数据类型，它保留了分类变量的性质，并且在提高代码效率方面起到了非常重要的作用。不过，在实际使用中，我们有时候需要添加一些新的类别进来，以满足更加复杂的需求。

那么，在这篇文章中，我们就来看一下，如何在 Python Pandas 中添加新的 CategoricalIndex 类别。

Demo 数据

我们先来看一下我们要使用的 Demo 数据，这是一个简单的包含了地区和销售额的数据集。

import pandas as pd

data = {
    "Sales": [100, 200, 300, 400, 500],
    "Region": ["North", "South", "East", "West", "Other"]
}

df = pd.DataFrame(data)
df.set_index("Region", inplace=True)

print(df)

输出的结果如下所示：

        Sales
Region       
North     100
South     200
East      300
West      400
Other     500

可以看到，我们的数据集中有五个不同的地区，现在我们就来看一下，如何添加新的地区。

添加新类别

在 Pandas 中，我们可以使用 CategoricalIndex 方法来创建 CategoricalIndex 数据，比如，我们可以使用下面的代码，创建一个包含三种不同性别的 CategoricalIndex：

import pandas as pd

gender = pd.CategoricalIndex(["Male", "Female", "Undisclosed"], categories=["Male", "Female", "Undisclosed"], ordered=True)

print(gender)

输出的结果如下所示：

CategoricalIndex(['Male', 'Female', 'Undisclosed'], categories=['Male', 'Female', 'Undisclosed'], ordered=True, dtype='category')

从输出的结果可以看到，我们已经成功的创建了一个 CategoricalIndex。其中，categories 参数指定了我们需要的分类类型，ordered 参数指定了分类是否有序。

那么，我们现在就可以使用 CategoricalIndex 方法，来创建一个新的 CategoricalIndex，然后将其添加到我们的数据集中，从而实现添加新类别的操作。

import pandas as pd

data = {
    "Sales": [100, 200, 300, 400, 500],
    "Region": ["North", "South", "East", "West", "Other"]
}

df = pd.DataFrame(data)
df.set_index("Region", inplace=True)

new_category = pd.CategoricalIndex(["Canada"], categories=["North", "South", "East", "West", "Other", "Canada"], ordered=False)

df.reindex(df.index.union(new_category))

print(df)

最终输出的结果如下所示：

         Sales
Region        
North      100
South      200
East       300
West       400
Other      500
Canada     NaN

从输出的结果可以看到，我们已经成功地将新的分类 “Canada” 添加到了原来的 CategoricalIndex 中，并且以 NaN 值填充。在实际的工作中，我们可以将 NaN 替换为其他的默认值，来满足不同的需求。

结论

在 Python Pandas 中，CategoricalIndex 是一种非常重要的数据类型，它保留了分类变量的性质，并且在提高代码效率方面起到了非常重要的作用。当我们需要添加新的类别时，可以使用 Pandas 中的 CategoricalIndex 方法来实现。对于数据分析相关的工作，掌握这个小技巧是非常有帮助的。