NumPy 如何计算softmax loss function的梯度

简介

在深度学习算法中，通过梯度下降法调节模型参数是解决大多数问题的标准方法。而计算梯度则是这个过程中的关键之一。在使用softmax loss function时，我们需要计算出损失函数对于模型参数的导数，即梯度。本文将着重介绍如何使用NumPy计算softmax loss function的梯度。

阅读更多：Numpy 教程

Softmax函数回顾

首先我们需要复习一下softmax函数及其作用。softmax函数是用于多分类问题的一个概率分布函数，在深度学习中被广泛使用。它的公式如下：

$softmax(x_i)=\frac{e^{x_i}}{\sum_j e^{x_j}}$

其中， $x_i$ 是一个向量中的一个元素。softmax将一个向量转换为概率分布，使得每个元素都处于0到1之间，并且所有元素之和为1。

Softmax Loss function介绍

softmax loss function 是用于多分类问题的损失函数。它类似于交叉熵损失函数，是计算模型预测结果与实际标签之间的差异的一种方式。softmax loss function 的公式如下：

$L_i=-log\left(\frac{e^{f_{y_i}}}{\sum_j e^{f_j}}\right)$

其中， $f$ 是输入特征的权重加上偏置项的结果， $y_i$ 是样本的真实标签。这个公式表示为：对于第i个样本，我们计算了一个概率分布向量，其中每个元素代表该类别的概率。 $L_i$ 的目的是最小化模型的预测值和真实标签之间的交叉熵。

Softmax Loss Function梯度计算

softmax loss function 的梯度计算涉及四个部分：

1. 求softmax function导数

计算softmax函数的导数是softmax loss function梯度计算的第一步。softmax函数导数的公式如下：

$\frac{\partial y_i}{\partial x_j}=y_i(\delta_{i,j}-y_j)$

其中， $\delta_{i,j}$ 是Kronecker delta符号，如果i=j，则值为1，否则为0。

在NumPy中，可以使用以下代码来计算softmax函数导数：

def softmax_derivative(x):
    s = softmax(x)
    return s * (1 - s)

2. 求 $f_i$ 导数

我们需要计算 $f_i$ 对于 $w_k$ 的导数， $f_i$ 的导数是一个独热向量（即只有一个元素为1，其余都为0的向量）。因此，对于每个 $f_i$ ，它的导数只能是输入向量 x 和相应权重 $w_k$ 的乘积。

该部分的代码实现如下：

def df_i_dw_k(x, y, k):
    return x[k] * softmax_derivative(y)[k]

3. 求 $L_i$ 导数

接下来我们需要计算 $L_i$ 对于 $f_k$ 的导数。由于 $L_i$ 只与第 $y_i$ 个元素有关，我们只需要计算 $y_i$ 对于 $f_k$ 的导数，并将其与其他导数相乘。

该部分代码实现如下：

def dL_df_k(y, y_true, k):
    return softmax(y)[k] - int(k == y_true)

4. 求梯度

有了前三个导数，我们可以通过链式规则计算损失函数 $L_i$ 对于 $w_k$ 的梯度，最后将所有梯度组合成一个向量。梯度计算的代码实现如下：

defsoftmax_loss_gradient(x, y_true, weights):
    gradients = np.zeros_like(weights)
    y = np.dot(x, weights)
    for i in range(weights.shape[0]):
        for j in range(weights.shape[1]):
            gradients[i][j] = dL_df_k(y, y_true, i) * df_i_dw_k(x, y, j)
    return gradients

示例

现在我们将使用一个简单的示例来说明以上梯度计算的过程。

假设我们有一个二分类的softmax模型。输入向量 $x$ 的大小为 $(1, 3)$ ，权重 $w$ 的大小为 $(3, 2)$ ，输出向量 $y$ 的大小为 $(1, 2)$ 。输入向量 $x$ 和权重 $w$ 定义如下：

x = np.array([1, 2, 3]).reshape(1, 3)
w = np.array([[-1, 1], [1, -1], [0, 0]])

现在，假设我们已知 $y$ 与实际标签 $y_{true}$ 的值分别为：

y = np.array([[0.3, 0.7]])
y_true = 1

我们可以首先计算损失值 $L_i$ 和梯度向量。此处不再详细给出计算过程，结果如下：

loss = 0.6093676052113153
grads = np.array([[ 0.14636172, -0.14636172],
                  [-0.29272344,  0.29272344],
                  [ 0.14636172, -0.14636172]])

总结

本文介绍了如何计算softmax loss function的梯度，包括softmax函数的导数、 $f_i$ 的导数、 $L_i$ 的导数和梯度计算的方法。同时，我们给出了一个简单的示例，并使用NumPy实现了梯度计算的代码。希望这篇文章能够帮助读者更好地理解softmax loss function和梯度计算的过程。