Seaborn 什么是数据科学中的Pairplot
数据的可视化展示被称为数据可视化。由于Python生态系统中专注于数据的出色软件包,数据分析非常重要。以简单易懂的方式汇总和呈现大量数据还有助于理解数据,无论数据有多么复杂,以及数据的价值。它还有助于有效和清晰地传递信息。
我们可以使用Seaborn Pairplot在数据集中可视化变量之间的成对关系。将大量数据压缩成一个图形,为数据提供了一种愉悦的视觉表达方式,有助于我们对数据的理解。这对于我们探索和熟悉数据集来说非常重要。
在进行探索性数据分析(EDA)时,pairplot可视化非常有用。使用pairplot可以展示所提供数据之间的关系,其中变量可以是连续的或分类的。
在数据集中绘制成对关系。
seaborn库的Pairplot模块提供了一个高级接口,用于创建具有视觉吸引力和教育意义的统计可视化。
导入库和数据
导入我们将要使用的库是第一步。在这种情况下,我们的数据可视化框架将是Seaborn,我们将使用pandas编程语言进行导入和保存数据。
import seaborn as sns
import pandas as pd
Seaborn Pairplot函数的语法
seaborn.pairplot(
data,
hue = None,
hue_order = None,
palette = None,
vars = None,
x_vars = None,
y_vars = None,
kind = 'scatter',
diag_kind = 'auto',
markers = None,
height = 2.5,
aspect = 1,
corner = False,
dropna = False,
plot_kws = None,
diag_kws = None,
grid_kws = None,
size = None
)
Pairplot函数的参数
- data - 根据要显示的可视化效果,data参数可以接受数据。DataFrame,Array或List of Arrays都可以表示值。
-
hue_order, order - 图中使用的分类变量的顺序由hue_order或order参数确定。字符串列表可用作此参数的值。
-
scale - 使用scale选项对图进行缩放。area、count和width是此属性的有用值。
-
scale_hue - scale_hue选项接受一个布尔值,指定是否对图中的所有小提琴进行缩放FALSE,还是在主要分组变量的每个级别内进行缩放TRUE。
-
gridsize - gridsize参数使用整数来计算图的核密度。
-
inner - inner选项允许用户指定小提琴图的内部点。这个参数的选项有box、point、quartile、stick或None。
-
orient - 用户可以使用orient选项选择图的方向。垂直或水平方向分别用字母”v”和”h”表示。
-
linewidth - linewidth参数通过取一个浮点整数作为其值来确定在图中使用的灰色线的宽度。
-
color - 用户可以使用color参数设置每个图的数据项的颜色范围。该参数的值可以是matplotlib颜色。
-
palette - palette参数用于指定要为图的每个级别使用的各种颜色的阴影。
-
axe - axe选项指定构建图的轴。该参数的值可以是matplotlib Axes。
示例1
# importing the required libraries
import seaborn as sbn
import matplotlib.pyplot as plt
# loading the dataset using the seaborn library
mydata = sbn.load_dataset('penguins')
# pairplot with the hue = gender parameter
sbn.pairplot(mydata, hue = 'gender')
# displaying the plot
plt.show()
输出
代码解释
在上面的示例中,我们导入了必要的库,并使用了Seaborn的load_dataset()方法来加载企鹅数据集进行处理。然后,使用pairplot()方法展示了绘图,其中hue参数设置为“gender”值。最后,我们使用Matplotlib的show()方法将绘图展示给观众。作为结果,成功创建了pair plot。
示例2
# importing the required libraries
import seaborn as sbn
import matplotlib.pyplot as plt
# loading the dataset using the seaborn library
mydata = sbn.load_dataset('tips')
# pairplot with the kind = kde parameter
sbn.pairplot(mydata, kind = 'kde')
# displaying the plot
plt.show()
输出
代码解释
在上面的示例中,我们导入了必要的库,并使用Seaborn提供的load_dataset()方法加载了企鹅数据集进行操作。然后使用pairplot()方法展示了绘图,其中hue参数设置为”gender”。最后,我们使用Matplotlib的show()方法将绘图展示给观众。由此成功创建了对应的对图。
结论
Seaborn的Pairplot是一个优秀的数据可视化工具,可以帮助我们熟悉我们的数据。在一个图上,我们可以绘制大量的数据,以便我们能够理解和获取新的想法。这是在数据科学工具包中一定要拥有的绘图工具。Pair plot是一种快速检查数据集中数据分布和关系的强大工具。通过Pair Grid类,Seaborn提供了一种简单的默认方法来创建可以自定义和扩展的对图。在数据分析项目中,往往有很大一部分价值来自于直观的数据展示,而不是炫耀的机器学习。对于进行数据分析来说,一个对图是一个很好的起点,因为它能够给我们一个全面的初始视图。