Python 探索分类数据

Python 探索分类数据

分类数据是一种具有固定数值的数据类型,这些变量之间没有可能的逻辑顺序。分类变量可以是血型、是与否、性别、排名(例如第一、第二、第三等)等。分类变量大部分时间需要进行编码,如独热编码和名义编码,以二进制或整数格式表示,在机器学习的使用案例中。

分类数据及相关术语

模式 是与分类变量/观察值相关联的最常见的中心趋势。它是在观察值集合中具有最高出现频率的值。

例如,在下面的数据集[1,2,6,7,7,7,2,6,6,6,6]中,模式是6,因为它出现了5次,这是所有其他变量中最多的。

分类数据分析

  • 使用条形图 - 可以使用条形图显示每个分类变量的频率。
    下面的代码绘制了五个学生在一次考试中获得的分数的条形图或频率分布图。条形图使用matplotlib库绘制。
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
students = ['Saurav','Mohit','Rajan','Aditi','Sonal']
marks = [78,98,65,90,80]
plt.bar(students, marks)
plt.xlabel('Student', fontsize = 10)
plt.ylabel('Marks', fontsize = 10)
plt.title('Student marks distribution')

输出

Python 探索分类数据

  • 饼图 - 饼图用于以圆形中的角度形式显示数据或分类变量的百分比。

下面的代码绘制了五名学生在一次测试中取得的分数的饼图。饼图也是使用matplotlib库绘制的。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
students = ['Saurav','Mohit','Rajan','Aditi','Sonal']
marks = [78,98,65,90,80]
plt.figure(figsize =(5, 5))
plt.pie(marks, labels = students,
startangle = 90, autopct ='%.2f %%')
plt.show()

输出

Python 探索分类数据

  • 箱线图 - 用于展示数据的分布并比较不同组的数据。

以下代码绘制了五个学生在一次测试中获得的分数的箱线图。使用Matplotlib绘制图形。

import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
data = pd.read_csv("/content/train.csv")
sns.boxplot(data = data, x='Street', y='SalePrice')

输出

Python 探索分类数据

*  **小提琴图** − – 用于可视化分类数据的分布并定义核密度图。

下面的代码绘制了五名学生参加测试并获得的分数的小提琴图。

* 
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
data = pd.read_csv("/content/train.csv")
sns.violinplot(data = data, x='Street', y='SalePrice')

输出

Python 探索分类数据

结论

分类数据可以以各种形式表示和探索。在处理分类数据时,条形图、饼图、箱线图和小提琴图对于表示数据和从中获取洞见非常有用。

Camera课程

Python教程

Java教程

Web教程

数据库教程

图形图像教程

办公软件教程

Linux教程

计算机教程

大数据教程

开发工具教程