PyTorch Adam优化器|极客笔记

PyTorch Adam优化器

在深度学习中，优化算法是非常重要的一部分，它决定了模型的收敛速度和效果。Adam优化器是一种常用的优化算法之一，在PyTorch中也提供了对应的实现。本文将详细介绍Adam优化器的原理和在PyTorch中的使用方法。

Adam优化器简介

Adam（Adaptive Moment Estimation）优化器是由D. Kingma和J. Ba在论文《Adam: A Method for Stochastic Optimization》中提出的一种自适应优化算法。Adam算法结合了RMSProp和Momentum的优点，具有较快的收敛速度和较好的泛化能力。

Adam算法的更新公式如下：

$\begin{aligned} m_t &= \beta_1 \cdot m_{t-1} + (1 – \beta_1) \cdot g_t \ v_t &= \beta_2 \cdot v_{t-1} + (1 – \beta_2) \cdot g_t^2 \ \hat{m}_t &= \frac{m_t}{1 – \beta_1^t} \ \hat{v}_t &= \frac{v_t}{1 – \beta_2^t} \ \theta_{t+1} &= \theta_{t} – \frac{\alpha}{\sqrt{\hat{v}_t} + \epsilon} \cdot \hat{m}_t \end{aligned}$

其中， $m_t$ 和 $v_t$ 分别表示一阶矩和二阶矩的估计， $\beta_1$ 和 $\beta_2$ 为指数衰减率， $\alpha$ 为学习率， $\epsilon$ 为一个很小的数（防止除0错误）。

PyTorch中的Adam优化器

在PyTorch中，可以使用torch.optim.Adam类来实现Adam优化器。下面是一个简单的示例代码：

import torch
import torch.optim as optim

# 定义模型
model = torch.nn.Linear(10, 1)
criterion = torch.nn.MSELoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)

# 准备数据
X = torch.randn(100, 10)
y = torch.randn(100, 1)

# 训练模型
for epoch in range(100):
    optimizer.zero_grad()
    output = model(X)
    loss = criterion(output, y)
    loss.backward()
    optimizer.step()
    print('Epoch {}, Loss: {}'.format(epoch, loss.item()))

在上面的代码中，我们首先定义了一个简单的线性模型，使用MSELoss作为损失函数，然后使用torch.optim.Adam来创建优化器，并在每个epoch中进行模型训练。