Numpy 如何优化 Python 中的 MAPE 代码

在本文中，我们将介绍如何使用 Numpy 优化 Python 中的 MAPE（Mean Absolute Percentage Error，平均绝对百分比误差）代码。MAPE 是评估预测模型精度的指标，常用于评估时间序列预测、回归分析等场景中的预测模型。

阅读更多：Numpy 教程

MAPE 的计算公式

MAPE 的计算公式如下：

$\text{MAPE}=\frac1n\sum_{i=1}^n\left|\frac{y_i-\hat{y}_i}{y_i}\right|\times100\%$

其中， $y_i$ 为实际值， $\hat{y}_i$ 为预测值， $n$ 为样本数。

以以下示例数据为例：

import numpy as np

y_true = np.array([100, 200, 300])
y_pred = np.array([90, 210, 310])

则 MAPE 的计算过程如下：

n = len(y_true)
mape = sum(np.abs((y_true-y_pred)/y_true))/n * 100
print(mape)  # 6.666666666666667

计算结果为 6.67%，表示预测误差的平均百分比为 6.67%。

MAPE 代码的性能瓶颈

在 Python 代码中，MAPE 的计算需要进行一些较为复杂的运算，例如除法、绝对值等，这些运算对于大规模数据的处理而言，可能会导致代码运行速度变慢。

下面的示例代码展示了如何在 Python 中实现 MAPE 的计算：

import numpy as np

def mape(y_true, y_pred):
    n = len(y_true)
    mape = sum(np.abs((y_true-y_pred)/y_true))/n * 100
    return mape

下面使用 timeit 模块来测试 MAPE 的性能：

import timeit

y_true = np.random.randint(1, 1000, size=1000000)
y_pred = np.random.randint(1, 1000, size=1000000)

t1 = timeit.timeit(lambda: mape(y_true, y_pred), number=100)
print("Python MAPE time:", t1)

输出的结果如下：

Python MAPE time: 6.007275620000465

可以看到，对于 100 万个数据的计算，Python 中的 MAPE 实现已经需要花费 60 多秒了，速度较慢，需要优化。

使用 Numpy 优化 MAPE 代码

Numpy 是 Python 中用于数值计算的基础库之一。在 Numpy 中，很多常见的计算函数都采用了矢量化的方式，可以大大提高计算效率。下面我们来看看如何使用 Numpy 优化 MAPE 代码。

相对于 Python 的实现而言，Numpy 的实现也需要作一些调整：

import numpy as np

def mape(y_true, y_pred):
    n = len(y_true)
    y_true = np.array(y_true)
    y_pred = np.array(y_pred)
    mape = np.mean(np.abs((y_true-y_pred)/y_true))*100
    return mape

下面使用 timeit 模块来测试 Numpy 实现的 MAPE 的性能：

import timeit

y_true = np.random.randint(1, 1000, size=1000000)
y_pred = np.random.randint(1, 1000, size=1000000)

t2 = timeit.timeit(lambda: mape(y_true, y_pred), number=100)
print("Numpy MAPE time:", t2)

输出的结果如下：