Python 如何将分类数据转换为二进制数据

分类数据 ，也称为 名义数据 ，是一种被分为离散类别或组的数据类型。这些类别没有固有的顺序或数值价值，通常由词、标签或符号表示。分类数据常用于描述对象、人或事件的特征或属性，并且它可以在社会科学、市场营销和医学研究等各个领域中找到。

在Python中，可以使用各种数据结构来表示分类数据，例如列表、元组、字典和数组。在Python中，用于表示分类数据的最常用数据结构是pandas DataFrame，它是一种类似于二维表格的数据结构，可存储和处理大量的数据。

下面是一个简单的示例，用于说明Python中的分类数据：

假设您有一个包含有关人们拥有的车辆类型的信息的数据集。数据集包括以下分类变量-

车辆类型 - 轿车，卡车，SUV，货车，摩托车
燃料类型 - 汽油，柴油，电动，混合动力
颜色 - 红色，蓝色，绿色，黑色，白色

示例

您可以使用pandas DataFrame在Python中表示此数据集，如下所示：

import pandas as pd

data = {'Vehicle Type': ['Car', 'Truck', 'SUV', 'Van', 'Motorcycle'],
   'Fuel Type': ['Gasoline', 'Diesel', 'Electric', 'Hybrid', 'Gasoline'],
   'Color': ['Red', 'Blue', 'Green', 'Black', 'White']}
df = pd.DataFrame(data)
print(df)

要运行上面的代码，我们首先需要在我们的机器上安装Pandas库，并且我们可以使用下面显示的命令来完成：

pip3 install pandas

一旦Pandas成功安装，我们可以执行下面显示的命令

python3 main.py

输出

上述命令的输出如下所示。

Vehicle Type Fuel Type  Color
0          Car  Gasoline    Red
1        Truck    Diesel   Blue
2          SUV  Electric  Green
3          Van    Hybrid  Black
4   Motorcycle  Gasoline  White

如您所见，分类变量在DataFrame中以列的形式表示，每个类别都在相应列中以字符串值表示。您可以使用各种Pandas函数和方法对此数据进行操作和分析，例如 groupby，count，value_counts 和crosstab。这些函数可以帮助您总结和可视化类别之间的分布和关系，从而为数据集提供有价值的见解。

现在我们对分类数据有了一点了解，让我们看看它们具有哪些特征。

分类数据的特征

下面列举了一些关于分类数据的特征。

分类数据具有有限数量的类别。
这些类别没有固有的顺序或排名。
分类数据可以以名义或顺序尺度进行测量。
常用计数或频率分布来总结分类数据。
与数值数据相比，分类数据的统计分析有限。

将分类数据转换为二进制数据

将分类数据转换为二进制数据涉及将分类变量转换为可用于分析或建模目的的二进制（0或1）值。这种转换很有用，因为许多机器学习算法和统计方法需要数值输入，而不是分类输入。

二进制编码是一种常见的方法，它将分类变量中的每个唯一类别转换为单独的二进制列，其中值为1表示存在该类别，值为0表示不存在该类别。

使用pandas的get_dummies()函数或其他类似的库可以轻松实现这种技术。二进制编码可以帮助提高预测模型的准确性，减少数据存储要求，并简化数据分析。

示例

考虑下面的代码，我们将使用Pandas将分类数据转换为二进制数据。

import pandas as pd

# create a sample DataFrame with categorical data
data = {'Gender': ['Male', 'Female', 'Male', 'Female'],
   'City': ['New York', 'Chicago', 'Chicago', 'Los Angeles'],
   'Marital Status': ['Single', 'Married', 'Single', 'Divorced']}
df = pd.DataFrame(data)

# use get_dummies() to encode categorical variables as binary values
encoded_df = pd.get_dummies(df)

print(encoded_df)

说明

第一行将Pandas库导入为pd。
在data字典中创建了一个包含分类数据的示例DataFrame。该DataFrame包含三个分类变量：性别、城市和婚姻状况。
使用pd.DataFrame()函数从data字典创建一个pandas DataFrame。将此DataFrame分配给变量df。
在df DataFrame上调用pd.get_dummies()函数，将分类变量转换为二进制值。此函数为分类变量中的每个唯一类别创建一个新的DataFrame。
将结果的二进制编码DataFrame分配给变量encoded_df。
最后，使用print()函数显示结果的二进制编码DataFrame。

要运行上述代码，我们需要运行下面显示的命令。

python3 main.py

输出

上述命令的输出如下所示。

Gender_Female  Gender_Male  ...  Marital Status_Married  Marital Status_Single
0              0            1  ...                       0                      1
1              1            0  ...                       1                      0
2              0            1  ...                       0                      1
3              1            0  ...                       0                      0

[4 rows x 8 columns]