Python中的Pair Plot
Seaborn Pairplot介绍
在本教程中,我们将使用Python编程语言中Seaborn库的pairplot()函数来了解Seaborn Pairplot。该函数可以极大地帮助分析机器学习项目中的探索性数据。我们还将了解seaborn库中pairplot()函数的语法并执行一些示例。
但在开始之前,让我们简单了解一下Seaborn库。
Python中的Seaborn库是什么
Python社区提供了一个用于数据可视化的开源库,名为Seaborn。Seaborn库是在matplotlib库基础上开发的,并与Python中的Pandas数据结构紧密集成。可视化是Seaborn库的核心概念,帮助用户探索和理解数据。
由于Seaborn库结合并整合了不同的库,因此学习者需要熟悉NumPy、Matplotlib和Pandas等库。
Seaborn库提供了各种功能。以下是其中一些功能:
- Seaborn提供了一个以数据集为导向的应用程序接口(API),可用于确定变量之间的关系。
- Seaborn还提供了线性回归图的自动估计和绘图功能。
- Seaborn还提供了对多个绘图网格的高级抽象支持。
- Seaborn还提供了可视化一元和二元分布。
现在,让我们了解如何下载和安装Seaborn库。
如何安装Seaborn库
在下面的部分中,我们将讨论安装Seaborn库的步骤。
使用pip安装程序
我们可以使用pip安装程序安装最新版本的Seaborn库。我们只需在命令提示符或终端中输入以下命令。
$ pip install seaborn
使用conda安装程序
Anaconda是一个多平台免费的Python发行版,用于Windows、Linux和Mac的SciPy堆栈。
我们可以使用 conda 安装程序来安装最新版本的Seaborn库,命令如下所示:
$ conda install seaborn
除了这两个,我们还可以安装Seaborn库的开发版本。
使用GitHub安装开发版本
要安装开发版本,我们可以访问下面给出的链接: https://github.com/mwaskom/seaborn
一些依赖项
在下载和安装Seaborn库时,有一些依赖项需要注意。这些依赖项如下:
- Python版本2.7或3.4+
- NumPy库
- Matplotlib库
- SciPy库
- Pandas库
初始化Seaborn库
一旦我们下载和安装了Seaborn库,让我们创建一个空的Python文件,并使用以下语法来初始化库
import seaborn
或者
import seaborn as sbn
保存程序并执行该文件。如果程序不返回导入错误,则库安装成功。否则,考虑重新安装库,如上所述。
Seaborn库提供了用户绘制各种图表的功能,包括:
- 饼图
- 柱状图
- 分布图
- 散点图
- 热力图
- 成对图
在本教程中,我们将只讨论Seaborn的成对图和pairplot()函数。所以,让我们开始吧。
了解Seaborn的pairplot()函数
Seaborn的pairplot()函数允许用户通过创建一个轴网格来实现将数据中存储的每个数值变量在X轴和Y轴上共享的结构,以列和行的形式显示。我们可以创建散点图以显示成对的关系,并在对角线上显示数据在列中的分布图。
pairplot()函数还可以用于展示变量的子集,或者在行和列上绘制不同类型的变量。
让我们来看一下Seaborn Pairplot函数的语法:
Seaborn Pairplot函数的语法
seaborn.pairplot(
data,
hue = None,
hue_order = None,
palette = None,
vars = None,
x_vars = None,
y_vars = None,
kind = 'scatter',
diag_kind = 'auto',
markers = None,
height = 2.5,
aspect = 1,
corner = False,
dropna = False,
plot_kws = None,
diag_kws = None,
grid_kws = None,
size = None
)
Pairplot 函数的参数:
- 数据: data参数接受根据要绘制的可视化数据。该参数的值可以是DataFrame、数组或数组列表。
- 色调顺序,顺序: hue_order或order参数是绘图中使用的分类变量的顺序。该参数的值可以是字符串列表。
- 比例: scale参数用于对图进行缩放。该参数可接受多个值,例如面积、计数或宽度。
- scale_hue: 参数 scale_hue 接受布尔值,用于确定是否在每个主要分组变量的每个级别中评估尺度( TRUE ),或在图中的所有小提琴上评估尺度( FALSE )。
-
gridsize: 参数 gridsize 接受整数值,用于计算图的核密度。
-
inner: 参数 inner 允许用户定义小提琴图的内部点。该参数接受以下值: box, point, quartile, stick 或 None 。
-
orient: orient参数允许用户确定图的方向。方向可以是垂直的,用“v”表示,或水平的,用“h”表示。
- linewidth: linewidth参数以浮点整数作为其值,确定绘图中使用的灰色线的宽度。
- color: color参数允许用户指定绘图的所有数据元素的颜色范围。该参数的值可以是Matplotlib颜色。
- palette: palette 参数用于定义绘图中每个层级所使用的颜色,带有不同的色调。
- ax: 参数用于定义绘图将在其中构建的坐标轴。该参数的值可以是 matplotlib Axes。
让我们考虑一些示例来了解 pairplot() 函数的工作原理:
示例1:
# importing the required libraries
import seaborn as sbn
import matplotlib.pyplot as plt
# loading the dataset using the seaborn library
mydata = sbn.load_dataset('penguins')
# pairplot with the hue = gender parameter
sbn.pairplot(mydata, hue = 'gender')
# displaying the plot
plt.show()
输出:
说明:
在上面的示例中,我们已经导入了所需的库,并使用Seaborn的load_dataset()函数加载了数据集penguins以进行处理。然后,我们使用pairplot()函数将hue参数设置为值’gender’,可视化绘图。最后,我们使用Matplotlib的show()函数将绘图显示给用户。结果成功生成了配对图。
例2:
# importing the required libraries
import seaborn as sbn
import matplotlib.pyplot as plt
# loading the dataset using the seaborn library
mydata = sbn.load_dataset('tips')
# pairplot with the kind = kde parameter
sbn.pairplot(mydata, kind = 'kde')
# displaying the plot
plt.show()
输出:
解释:
在上面的示例中,我们导入了所需的库并加载了数据集 tips 以便使用Seaborn的 load_dataset() 函数进行处理。然后,我们使用 pairplot() 函数将图表可视化,其中 kind 参数的值设置为 ‘ kde ‘。最后,我们使用Matplotlib的 show() 函数将图表显示给用户。结果成功生成了成对图。