Matplotlib中绘制重叠直方图的全面指南|极客笔记

Matplotlib中绘制重叠直方图的全面指南

参考：Overlapping Histograms with Matplotlib

Matplotlib是Python中最流行的数据可视化库之一，它提供了强大的工具来创建各种类型的图表和图形。在数据分析和统计学中，直方图是一种常用的图表类型，用于展示数据的分布情况。而重叠直方图则更进一步，允许我们在同一个图表中比较多个数据集的分布。本文将详细介绍如何使用Matplotlib绘制重叠直方图，包括基本概念、各种技巧和高级应用。

1. 重叠直方图的基本概念

重叠直方图是指在同一个坐标系中绘制多个数据集的直方图，使它们部分或完全重叠。这种图表形式特别适合比较不同组或类别的数据分布。通过重叠，我们可以直观地观察到各数据集之间的差异和相似之处。

在Matplotlib中，我们主要使用pyplot.hist()函数来创建直方图。要绘制重叠直方图，我们需要多次调用这个函数，每次传入不同的数据集，并适当调整透明度和其他参数以确保所有直方图都清晰可见。

让我们从一个简单的例子开始：

import matplotlib.pyplot as plt
import numpy as np

# 生成示例数据
data1 = np.random.normal(0, 1, 1000)
data2 = np.random.normal(1, 1, 1000)

# 创建图形和坐标轴
fig, ax = plt.subplots(figsize=(10, 6))

# 绘制重叠直方图
ax.hist(data1, bins=30, alpha=0.5, label='Data 1')
ax.hist(data2, bins=30, alpha=0.5, label='Data 2')

# 添加标签和标题
ax.set_xlabel('Value')
ax.set_ylabel('Frequency')
ax.set_title('Overlapping Histograms - how2matplotlib.com')
ax.legend()

plt.show()

Output:

Matplotlib中绘制重叠直方图的全面指南

在这个例子中，我们生成了两组正态分布的数据，然后使用hist()函数绘制它们的直方图。通过设置alpha参数为0.5，我们使两个直方图半透明，从而可以看到它们的重叠部分。

2. 自定义直方图的外观

要创建更具吸引力和信息量的重叠直方图，我们可以自定义多个方面的外观。

2.1 调整颜色和透明度

颜色和透明度是区分不同数据集的关键。我们可以为每个直方图指定不同的颜色，并调整透明度以平衡可见性和重叠效果。

import matplotlib.pyplot as plt
import numpy as np

data1 = np.random.normal(0, 1, 1000)
data2 = np.random.normal(1, 1, 1000)

fig, ax = plt.subplots(figsize=(10, 6))

ax.hist(data1, bins=30, alpha=0.7, color='skyblue', label='Data 1')
ax.hist(data2, bins=30, alpha=0.7, color='lightgreen', label='Data 2')

ax.set_xlabel('Value')
ax.set_ylabel('Frequency')
ax.set_title('Customized Overlapping Histograms - how2matplotlib.com')
ax.legend()

plt.show()

Output:

Matplotlib中绘制重叠直方图的全面指南

在这个例子中，我们使用了color参数来指定每个直方图的颜色，并将alpha值调整为0.7，以提高不透明度。

2.2 调整直方图的边缘和填充

我们可以通过设置边缘颜色和线宽来增强直方图的可读性。同时，我们还可以使用不同的填充样式来区分各个数据集。

import matplotlib.pyplot as plt
import numpy as np

data1 = np.random.normal(0, 1, 1000)
data2 = np.random.normal(1, 1, 1000)

fig, ax = plt.subplots(figsize=(10, 6))

ax.hist(data1, bins=30, alpha=0.5, color='skyblue', edgecolor='black', linewidth=1.2, label='Data 1')
ax.hist(data2, bins=30, alpha=0.5, color='none', edgecolor='green', linewidth=1.2, hatch='///', label='Data 2')

ax.set_xlabel('Value')
ax.set_ylabel('Frequency')
ax.set_title('Histograms with Custom Edges and Fill - how2matplotlib.com')
ax.legend()

plt.show()

在这个例子中，我们为第一个直方图添加了黑色边缘，为第二个直方图使用了绿色边缘和斜线填充样式。

3. 调整直方图的bin数量和范围

bin的数量和范围对直方图的形状和信息传达有重要影响。Matplotlib允许我们精确控制这些参数。

3.1 指定bin的数量

我们可以通过bins参数来控制直方图的bin数量。这可以是一个整数，表示bin的数量，也可以是一个数组，表示bin的边界。

import matplotlib.pyplot as plt
import numpy as np

data1 = np.random.normal(0, 1, 1000)
data2 = np.random.normal(1, 1, 1000)

fig, ax = plt.subplots(figsize=(10, 6))

ax.hist(data1, bins=20, alpha=0.5, label='Data 1')
ax.hist(data2, bins=40, alpha=0.5, label='Data 2')

ax.set_xlabel('Value')
ax.set_ylabel('Frequency')
ax.set_title('Histograms with Different Bin Numbers - how2matplotlib.com')
ax.legend()

plt.show()

Output:

Matplotlib中绘制重叠直方图的全面指南

在这个例子中，我们为两个数据集分别使用了20和40个bin，以展示bin数量对直方图形状的影响。

3.2 指定bin的范围

我们可以使用range参数来指定直方图的范围，这对于确保不同数据集使用相同的bin边界很有用。

import matplotlib.pyplot as plt
import numpy as np

data1 = np.random.normal(0, 1, 1000)
data2 = np.random.normal(1, 1, 1000)

fig, ax = plt.subplots(figsize=(10, 6))

ax.hist(data1, bins=30, range=(-4, 6), alpha=0.5, label='Data 1')
ax.hist(data2, bins=30, range=(-4, 6), alpha=0.5, label='Data 2')

ax.set_xlabel('Value')
ax.set_ylabel('Frequency')
ax.set_title('Histograms with Specified Range - how2matplotlib.com')
ax.legend()

plt.show()

Output:

Matplotlib中绘制重叠直方图的全面指南

在这个例子中，我们将两个直方图的范围都设置为-4到6，确保它们使用相同的bin边界。

4. 归一化和密度估计

在比较不同大小的数据集时，直接使用频数可能会产生误导。这时，我们可以使用归一化或密度估计来创建更具可比性的直方图。

4.1 使用归一化

通过设置density=True，我们可以创建归一化的直方图，其中y轴表示概率密度而不是频数。

import matplotlib.pyplot as plt
import numpy as np

data1 = np.random.normal(0, 1, 1000)
data2 = np.random.normal(1, 1, 2000)

fig, ax = plt.subplots(figsize=(10, 6))

ax.hist(data1, bins=30, density=True, alpha=0.5, label='Data 1')
ax.hist(data2, bins=30, density=True, alpha=0.5, label='Data 2')

ax.set_xlabel('Value')
ax.set_ylabel('Probability Density')
ax.set_title('Normalized Overlapping Histograms - how2matplotlib.com')
ax.legend()

plt.show()

Output:

Matplotlib中绘制重叠直方图的全面指南

在这个例子中，尽管两个数据集的大小不同，但通过归一化，我们可以直接比较它们的分布。

4.2 使用核密度估计

核密度估计（KDE）提供了一种更平滑的方法来估计概率密度函数。我们可以将KDE曲线与直方图结合使用。

import matplotlib.pyplot as plt
import numpy as np
from scipy.stats import gaussian_kde

data1 = np.random.normal(0, 1, 1000)
data2 = np.random.normal(1, 1, 1000)

fig, ax = plt.subplots(figsize=(10, 6))

ax.hist(data1, bins=30, density=True, alpha=0.5, label='Data 1 Histogram')
ax.hist(data2, bins=30, density=True, alpha=0.5, label='Data 2 Histogram')

kde1 = gaussian_kde(data1)
kde2 = gaussian_kde(data2)
x_range = np.linspace(-4, 6, 200)
ax.plot(x_range, kde1(x_range), label='Data 1 KDE')
ax.plot(x_range, kde2(x_range), label='Data 2 KDE')

ax.set_xlabel('Value')
ax.set_ylabel('Density')
ax.set_title('Histograms with KDE - how2matplotlib.com')
ax.legend()

plt.show()

Output:

Matplotlib中绘制重叠直方图的全面指南

这个例子展示了如何将核密度估计曲线与直方图结合，提供了数据分布的更平滑表示。

5. 堆叠和并排直方图

除了简单的重叠，我们还可以创建堆叠或并排的直方图，这些变体在某些情况下可能更有用。

5.1 堆叠直方图

堆叠直方图可以显示各个类别的累积分布。

import matplotlib.pyplot as plt
import numpy as np

data1 = np.random.normal(0, 1, 1000)
data2 = np.random.normal(1, 1, 1000)

fig, ax = plt.subplots(figsize=(10, 6))

ax.hist([data1, data2], bins=30, stacked=True, label=['Data 1', 'Data 2'])

ax.set_xlabel('Value')
ax.set_ylabel('Frequency')
ax.set_title('Stacked Histogram - how2matplotlib.com')
ax.legend()

plt.show()

Output:

Matplotlib中绘制重叠直方图的全面指南

在这个例子中，我们使用stacked=True参数来创建堆叠直方图，展示两个数据集的累积分布。

5.2 并排直方图

并排直方图允许直接比较不同类别的频率分布。

import matplotlib.pyplot as plt
import numpy as np

data1 = np.random.normal(0, 1, 1000)
data2 = np.random.normal(1, 1, 1000)

fig, ax = plt.subplots(figsize=(10, 6))

x_min = min(data1.min(), data2.min())
x_max = max(data1.max(), data2.max())
bins = np.linspace(x_min, x_max, 30)

ax.hist(data1, bins=bins, alpha=0.5, label='Data 1')
ax.hist(data2, bins=bins, alpha=0.5, label='Data 2')

ax.set_xlabel('Value')
ax.set_ylabel('Frequency')
ax.set_title('Side-by-Side Histogram - how2matplotlib.com')
ax.legend()

plt.show()

Output:

Matplotlib中绘制重叠直方图的全面指南

在这个例子中，我们手动计算bin边界，以确保两个直方图使用相同的bin，从而实现并排比较。

6. 添加统计信息和注释

为了增加直方图的信息量，我们可以添加统计信息和注释。

6.1 添加均值线和标准差

我们可以在直方图上添加垂直线来表示均值，并用文本注释显示标准差。

import matplotlib.pyplot as plt
import numpy as np

data1 = np.random.normal(0, 1, 1000)
data2 = np.random.normal(1, 1, 1000)

fig, ax = plt.subplots(figsize=(10, 6))

ax.hist(data1, bins=30, alpha=0.5, label='Data 1')
ax.hist(data2, bins=30, alpha=0.5, label='Data 2')

mean1, std1 = np.mean(data1), np.std(data1)
mean2, std2 = np.mean(data2), np.std(data2)

ax.axvline(mean1, color='r', linestyle='dashed', linewidth=2)
ax.axvline(mean2, color='g', linestyle='dashed', linewidth=2)

ax.text(mean1, ax.get_ylim()[1], f'Mean: {mean1:.2f}\nStd: {std1:.2f}', 
        horizontalalignment='center', verticalalignment='top')
ax.text(mean2, ax.get_ylim()[1], f'Mean: {mean2:.2f}\nStd: {std2:.2f}', 
        horizontalalignment='center', verticalalignment='top')

ax.set_xlabel('Value')
ax.set_ylabel('Frequency')
ax.set_title('Histograms with Mean and Std - how2matplotlib.com')
ax.legend()

plt.show()

Output:

Matplotlib中绘制重叠直方图的全面指南

这个例子展示了如何在直方图上添加均值线和标准差信息。

6.2 添加箭头和文本注释

我们可以使用箭头和文本来突出显示直方图的特定特征。

import matplotlib.pyplot as plt
import numpy as np

data1 = np.random.normal(0, 1, 1000)
data2 = np.random.normal(1, 1, 1000)

fig, ax = plt.subplots(figsize=(10, 6))

ax.hist(data1, bins=30, alpha=0.5, label='Data 1')
ax.hist(data2, bins=30, alpha=0.5, label='Data 2')

ax.annotate('Peak of Data 1', xy=(0, 150), xytext=(-1, 200),
            arrowprops=dict(facecolor='black', shrink=0.05))

ax.annotate('Overlap Region', xy=(0.5, 100), xytext=(2, 150),
            arrowprops=dict(facecolor='black', shrink=0.05))

ax.set_xlabel('Value')
ax.set_ylabel('Frequency')
ax.set_title('Histograms with Annotations - how2matplotlib.com')
ax.legend()

plt.show()

Output:

Matplotlib中绘制重叠直方图的全面指南

这个例子展示了如何使用annotate()函数添加带箭头的文本注释，以突出显示直方图的特定特征。

7. 多子图比较

有时，我们可能需要在同一个图形中比较多个重叠直方图组。这可以通过创建多个子图来实现。

import matplotlib.pyplot as plt
import numpy as np

data1 = np.random.normal(0, 1, 1000)
data2 = np.random.normal(1, 1, 1000)
data3 = np.random.normal(-1, 1.5, 1000)
data4 = np.random.normal(2, 0.5, 1000)

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

ax1.hist(data1, bins=30, alpha=0.5, label='Data 1')
ax1.hist(data2, bins=30, alpha=0.5, label='Data 2')
ax1.set_title('Comparison 1 - how2matplotlib.com')
ax1.legend()

ax2.hist(data3, bins=30, alpha=0.5, label='Data 3')
ax2.hist(data4, bins=30, alpha=0.5, label='Data 4')
ax2.set_title('Comparison 2 - how2matplotlib.com')
ax2.legend()

fig.suptitle('Multiple Overlapping Histogram Comparisons', fontsize=16)
plt.tight_layout()
plt.show()

Output:

Matplotlib中绘制重叠直方图的全面指南

这个例子创建了两个并排的子图，每个子图包含一对重叠的直方图，允许我们在同一个图形中进行多组比较。

8. 3D直方图

对于更高级的可视化，我们可以创建3D重叠直方图。这种方法特别适合比较二维数据的分布。

import matplotlib.pyplot as plt
import numpy as np
from mpl_toolkits.mplot3d import Axes3D

# 生成示例数据
x1 = np.random.normal(0, 1, 1000)
y1 = np.random.normal(0, 1, 1000)
x2 = np.random.normal(1, 1, 1000)
y2 = np.random.normal(1, 1, 1000)

fig = plt.figure(figsize=(12, 8))
ax = fig.add_subplot(111, projection='3d')

hist1, xedges1, yedges1 = np.histogram2d(x1, y1, bins=20)
hist2, xedges2, yedges2 = np.histogram2d(x2, y2, bins=20)

xpos1, ypos1 = np.meshgrid(xedges1[:-1] + 0.25, yedges1[:-1] + 0.25, indexing="ij")
xpos2, ypos2 = np.meshgrid(xedges2[:-1] + 0.25, yedges2[:-1] + 0.25, indexing="ij")

xpos1 = xpos1.ravel()
ypos1 = ypos1.ravel()
zpos1 = np.zeros_like(xpos1)
dx1 = dy1 = 0.5 * np.ones_like(zpos1)
dz1 = hist1.ravel()

xpos2 = xpos2.ravel()
ypos2 = ypos2.ravel()
zpos2 = np.zeros_like(xpos2)
dx2 = dy2 = 0.5 * np.ones_like(zpos2)
dz2 = hist2.ravel()

ax.bar3d(xpos1, ypos1, zpos1, dx1, dy1, dz1, alpha=0.5, color='b', label='Data 1')
ax.bar3d(xpos2, ypos2, zpos2, dx2, dy2, dz2, alpha=0.5, color='r', label='Data 2')

ax.set_xlabel('X')
ax.set_ylabel('Y')
ax.set_zlabel('Frequency')
ax.set_title('3D Overlapping Histograms - how2matplotlib.com')
ax.legend()

plt.show()

Output:

Matplotlib中绘制重叠直方图的全面指南

这个例子展示了如何创建3D重叠直方图，使用bar3d()函数来绘制每个数据集的3D柱状图。

9. 自定义颜色映射

我们可以使用颜色映射来增强重叠直方图的视觉效果，特别是当我们有多个数据集需要比较时。

import matplotlib.pyplot as plt
import numpy as np

data1 = np.random.normal(0, 1, 1000)
data2 = np.random.normal(1, 1, 1000)
data3 = np.random.normal(2, 1, 1000)

fig, ax = plt.subplots(figsize=(12, 6))

n_bins = 30
colors = plt.cm.viridis(np.linspace(0, 1, 3))

ax.hist([data1, data2, data3], n_bins, density=True, histtype='bar', 
        color=colors, label=['Data 1', 'Data 2', 'Data 3'])

ax.set_xlabel('Value')
ax.set_ylabel('Density')
ax.set_title('Overlapping Histograms with Custom Colormap - how2matplotlib.com')
ax.legend()

plt.show()

Output:

Matplotlib中绘制重叠直方图的全面指南

在这个例子中，我们使用viridis颜色映射为三个数据集分配不同的颜色，创建了一个视觉上更加吸引人的重叠直方图。

10. 交互式重叠直方图

使用Matplotlib的交互式功能，我们可以创建允许用户动态调整直方图参数的图表。

import matplotlib.pyplot as plt
import numpy as np
from matplotlib.widgets import Slider

data1 = np.random.normal(0, 1, 1000)
data2 = np.random.normal(1, 1, 1000)

fig, ax = plt.subplots(figsize=(10, 8))
plt.subplots_adjust(bottom=0.25)

n_bins_initial = 30
alpha_initial = 0.5

hist1 = ax.hist(data1, bins=n_bins_initial, alpha=alpha_initial, label='Data 1')
hist2 = ax.hist(data2, bins=n_bins_initial, alpha=alpha_initial, label='Data 2')

ax.set_xlabel('Value')
ax.set_ylabel('Frequency')
ax.set_title('Interactive Overlapping Histograms - how2matplotlib.com')
ax.legend()

ax_bins = plt.axes([0.2, 0.1, 0.6, 0.03])
ax_alpha = plt.axes([0.2, 0.05, 0.6, 0.03])

s_bins = Slider(ax_bins, 'Bins', 5, 100, valinit=n_bins_initial, valstep=1)
s_alpha = Slider(ax_alpha, 'Alpha', 0, 1, valinit=alpha_initial)

def update(val):
    n_bins = int(s_bins.val)
    alpha = s_alpha.val
    ax.clear()
    ax.hist(data1, bins=n_bins, alpha=alpha, label='Data 1')
    ax.hist(data2, bins=n_bins, alpha=alpha, label='Data 2')
    ax.set_xlabel('Value')
    ax.set_ylabel('Frequency')
    ax.set_title('Interactive Overlapping Histograms - how2matplotlib.com')
    ax.legend()
    fig.canvas.draw_idle()

s_bins.on_changed(update)
s_alpha.on_changed(update)

plt.show()

Output:

Matplotlib中绘制重叠直方图的全面指南