3.3. 线性回归的简洁实现
Open the notebook in Colab
Open the notebook in Colab
Open the notebook in Colab

在过去的几年里,出于对深度学习强烈的兴趣,许多公司、学者和业余爱好者开发了各种成熟的开源框架。通过这些框架可以自动化实现基于梯度的学习算法中重复性的工作。 在 3.2节 中,我们只依赖了:(1)通过张量来进行数据存储和线性代数;(2)通过自动微分来计算梯度。实际上,由于数据迭代器、损失函数、优化器和神经网络层很常用,现代深度学习库也为我们实现了这些组件。

在本节中,我们将介绍如何通过使用深度学习框架的高级API来简洁地实现 3.2节 中的线性回归模型。

3.3.1. 生成数据集

首先,我们生成与 3.2节 中相同的数据集。

from mxnet import autograd, gluon, np, npx
from d2l import mxnet as d2l

npx.set_np()

true_w = np.array([2, -3.4])
true_b = 4.2
features, labels = d2l.synthetic_data(true_w, true_b, 1000)
import numpy as np
import torch
from torch.utils import data
from d2l import torch as d2l

true_w = torch.tensor([2, -3.4])
true_b = 4.2
features, labels = d2l.synthetic_data(true_w, true_b, 1000)
import numpy as np
import tensorflow as tf
from d2l import tensorflow as d2l

true_w = tf.constant([2, -3.4])
true_b = 4.2
features, labels = d2l.synthetic_data(true_w, true_b, 1000)

3.3.2. 读取数据集

我们可以调用框架中现有的API来读取数据,而不使用我们自己定义的迭代器。我们将 featureslabels 作为API的参数传递,并在实例化数据迭代器对象时指定 batch_size。此外,布尔值 is_train 表示是否希望数据迭代器对象在每个迭代周期内打乱数据。

def load_array(data_arrays, batch_size, is_train=True):  #@save
    """构造一个Gluon数据迭代器。"""
    dataset = gluon.data.ArrayDataset(*data_arrays)
    return gluon.data.DataLoader(dataset, batch_size, shuffle=is_train)

batch_size = 10
data_iter = load_array((features, labels), batch_size)
def load_array(data_arrays, batch_size, is_train=True):  #@save
    """构造一个PyTorch数据迭代器。"""
    dataset = data.TensorDataset(*data_arrays)
    return data.DataLoader(dataset, batch_size, shuffle=is_train)

batch_size = 10
data_iter = load_array((features, labels), batch_size)
def load_array(data_arrays, batch_size, is_train=True):  #@save
    """构造一个TensorFlow数据迭代器。"""
    dataset = tf.data.Dataset.from_tensor_slices(data_arrays)
    if is_train:
        dataset = dataset.shuffle(buffer_size=1000)
    dataset = dataset.batch(batch_size)
    return dataset

batch_size = 10
data_iter = load_array((features, labels), batch_size)

使用 data_iter 的方式与我们在 3.2节 中使用 data_iter 函数的方式相同。为了验证是否正常工作,让我们读取并打印第一个小批量样本。 与 3.2节 不同,这里我们使用 iter 构造Python迭代器,并使用 next 从迭代器中获取第一项。

next(iter(data_iter))
[array([[-0.0643351 ,  1.6473899 ],
        [ 0.8486986 ,  0.04734707],
        [ 1.4824563 , -2.6438675 ],
        [-0.35430676, -0.87738055],
        [ 0.40236598,  0.5925345 ],
        [-1.1642394 ,  0.1445754 ],
        [ 0.6397144 , -0.90252906],
        [-0.19628292,  0.32660788],
        [ 1.9984016 ,  0.30198845],
        [ 0.7615899 ,  1.6106696 ]]),
 array([[-1.5441506],
        [ 5.7442694],
        [16.123064 ],
        [ 6.4599323],
        [ 3.0004385],
        [ 1.3729192],
        [ 8.548329 ],
        [ 2.6886718],
        [ 7.185257 ],
        [ 0.2617909]])]
next(iter(data_iter))
[tensor([[-0.0997, -0.2620],
         [ 0.2916, -0.7110],
         [ 0.1079,  0.4852],
         [ 0.1284, -0.4682],
         [-0.2655, -1.2037],
         [-0.4500,  0.2874],
         [ 0.7504,  0.4353],
         [-1.1553,  0.0024],
         [ 0.1379,  0.3085],
         [-1.3421,  0.2175]]),
 tensor([[4.8986],
         [7.2041],
         [2.7625],
         [6.0411],
         [7.7710],
         [2.3343],
         [4.2248],
         [1.8734],
         [3.4249],
         [0.7741]])]
next(iter(data_iter))
(<tf.Tensor: shape=(10, 2), dtype=float32, numpy=
 array([[-0.86170083,  0.30746105],
        [ 0.42989558,  0.42750975],
        [-0.35818014,  1.7333622 ],
        [ 0.40801448,  0.7627079 ],
        [-0.5880781 ,  0.02246788],
        [-0.85798436,  0.03076951],
        [ 0.928456  , -1.2010638 ],
        [-0.50605744, -0.03279113],
        [ 0.39613274,  1.5964081 ],
        [ 0.9061762 , -0.86858386]], dtype=float32)>,
 <tf.Tensor: shape=(10, 1), dtype=float32, numpy=
 array([[ 1.4386516 ],
        [ 3.6211293 ],
        [-2.3918834 ],
        [ 2.4211974 ],
        [ 2.9451172 ],
        [ 2.3731837 ],
        [10.146059  ],
        [ 3.2906647 ],
        [-0.41937798],
        [ 8.948167  ]], dtype=float32)>)

3.3.3. 定义模型

当我们在 3.2节 中实现线性回归时,我们明确定义了模型参数变量,并编写了计算的代码,这样通过基本的线性代数运算得到输出。但是,如果模型变得更加复杂,而且当你几乎每天都需要实现模型时,你会想简化这个过程。这种情况类似于从头开始编写自己的博客。做一两次是有益的、有启发性的,但如果每次你每需要一个博客就花一个月的时间重新发明轮子,那你将是一个糟糕的网页开发者。

对于标准操作,我们可以使用框架的预定义好的层。这使我们只需关注使用哪些层来构造模型,而不必关注层的实现细节。我们首先定义一个模型变量net,它是一个 Sequential 类的实例。 Sequential 类为串联在一起的多个层定义了一个容器。当给定输入数据, Sequential 实例将数据传入到第一层,然后将第一层的输出作为第二层的输入,依此类推。在下面的例子中,我们的模型只包含一个层,因此实际上不需要Sequential。但是由于以后几乎所有的模型都是多层的,在这里使用Sequential会让你熟悉标准的流水线。

回顾 图3.1.2 中的单层网络架构,这一单层被称为 全连接层(fully-connected layer),因为它的每一个输入都通过矩阵-向量乘法连接到它的每个输出。

在 Gluon 中,全连接层在 Dense 类中定义。由于我们只想得到一个标量输出,所以我们将该数字设置为 1。

值得注意的是,为了方便使用,Gluon 并不要求我们为每个层指定输入的形状。所以在这里,我们不需要告诉 Gluon 有多少输入进入这一层。当我们第一次尝试通过我们的模型传递数据时,例如,当后面执行 net(X) 时,Gluon 会自动推断每个层输入的形状。我们稍后将详细介绍这种工作机制。

# `nn` 是神经网络的缩写
from mxnet.gluon import nn

net = nn.Sequential()
net.add(nn.Dense(1))

在 PyTorch 中,全连接层在 Linear 类中定义。值得注意的是,我们将两个参数传递到 nn.Linear 中。第一个指定输入特征形状,即 2,第二个指定输出特征形状,输出特征形状为单个标量,因此为 1。

# `nn` 是神经网络的缩写
from torch import nn

net = nn.Sequential(nn.Linear(2, 1))

在 Keras 中,全连接层在 Dense 类中定义。由于我们只想得到一个标量输出,所以我们将该数字设置为 1。

值得注意的是,为了方便使用,Keras 不要求我们为每个层指定输入形状。所以在这里,我们不需要告诉 Keras 有多少输入进入这一层。当我们第一次尝试通过我们的模型传递数据时,例如,当后面执行 net(X) 时,Keras 会自动推断每个层输入的形状。我们稍后将详细介绍这种工作机制。

# `keras` 是TensorFlow的高级API
net = tf.keras.Sequential()
net.add(tf.keras.layers.Dense(1))

3.3.4. 初始化模型参数

在使用net之前,我们需要初始化模型参数。如在线性回归模型中的权重和偏置。 深度学习框架通常有预定义的方法来初始化参数。 在这里,我们指定每个权重参数应该从均值为0、标准差为0.01的正态分布中随机采样,偏置参数将初始化为零。

我们从 MXNet 导入 initializer 模块。这个模块提供了各种模型参数初始化方法。Gluon将 init 作为访问 initializer 包的快捷方式。我们可以通过调用 init.Normal(sigma=0.01) 来指定初始化权重的方法。默认情况下,偏置参数初始化为零。

from mxnet import init

net.initialize(init.Normal(sigma=0.01))

上面的代码可能看起来很简单,但是你应该注意到这里的一个细节:我们正在为网络初始化参数,而Gluon还不知道输入将有多少维! 网络的输入可能有2维,也可能有2000维。Gluon让我们避免了这个问题,在后端执行时,初始化实际上是 推迟 (deferred)执行的。 只有在我们第一次尝试通过网络传递数据时才会进行真正的初始化。只是要记住,因为参数还没有初始化,所以我们不能访问或操作它们。

正如我们在构造 nn.Linear 时指定输入和输出尺寸一样。现在我们直接访问参数以设定初始值。我们通过 net[0] 选择网络中的第一个图层,然后使用 weight.databias.data 方法访问参数。然后使用替换方法 normal_fill_ 来重写参数值。

net[0].weight.data.normal_(0, 0.01)
net[0].bias.data.fill_(0)
tensor([0.])

TensorFlow 中的 initializers 模块提供了多种模型参数初始化方法。在 Keras 中最简单的指定初始化方法是在创建层时指定 kernel_initializer 。在这里,我们重新创建了 net

initializer = tf.initializers.RandomNormal(stddev=0.01)
net = tf.keras.Sequential()
net.add(tf.keras.layers.Dense(1, kernel_initializer=initializer))

上面的代码可能看起来很简单,但是你应该注意到这里的一个细节:我们正在为网络初始化参数,而Keras还不知道输入将有多少维! 网络的输入可能有2维,也可能有2000维。Keras让我们避免了这个问题,在后端执行时,初始化实际上是 推迟 (deferred)执行的。 只有在我们第一次尝试通过网络传递数据时才会进行真正的初始化。只是要记住,因为参数还没有初始化,所以我们不能访问或操作它们。

3.3.5. 定义损失函数

在 Gluon 中,loss 模块定义了各种损失函数。在这个例子中,我们将使用Gluon中的平方损失 (L2Loss)。

loss = gluon.loss.L2Loss()

计算均方误差使用的是MSELoss类,也称为平方 \(L_2\) 范数。默认情况下,它返回所有样本损失的平均值。

loss = nn.MSELoss()

计算均方误差使用的是MeanSquaredError 类,也称为平方 \(L_2\) 范数。默认情况下,它返回所有样本损失的平均值。

loss = tf.keras.losses.MeanSquaredError()

3.3.6. 定义优化算法

小批量随机梯度下降算法是一种优化神经网络的标准工具,Gluon 通过 Trainer 类支持该算法的许多变种。当我们实例化 Trainer 时,我们要指定优化的参数(可通过 net.collect_params() 从我们的模型 net 中获得)、我们希望使用的优化算法(sgd)以及优化算法所需的超参数字典。小批量随机梯度下降只需要设置 learning_rate值,这里设置为 0.03。

from mxnet import gluon

trainer = gluon.Trainer(net.collect_params(), 'sgd', {'learning_rate': 0.03})

小批量随机梯度下降算法是一种优化神经网络的标准工具,PyTorch 在 optim 模块中实现了该算法的许多变种。当我们实例化一个 SGD 实例时,我们要指定优化的参数(可通过 net.parameters() 从我们的模型中获得)以及优化算法所需的超参数字典。小批量随机梯度下降只需要设置 lr值,这里设置为 0.03。

trainer = torch.optim.SGD(net.parameters(), lr=0.03)

小批量随机梯度下降算法是一种优化神经网络的标准工具,Keras 在 optimizers 模块中实现了该算法的许多变种。小批量随机梯度下降只需要设置 learning_rate值,这里设置为 0.03。

trainer = tf.keras.optimizers.SGD(learning_rate=0.03)

3.3.7. 训练

通过深度学习框架的高级API来实现我们的模型只需要相对较少的代码。 我们不必单独分配参数、不必定义我们的损失函数,也不必手动实现小批量随机梯度下降。 当我们需要更复杂的模型时,高级API的优势将大大增加。 当我们有了所有的基本组件,训练过程代码与我们从零开始实现所有东西时所做的非常相似。

回顾一下:在每个迭代周期里,我们将完整遍历一次数据集(train_data),不停地从中获取一个小批量的输入和相应的标签。对于每一个小批量,我们会进行以下步骤:

  • 通过调用 net(X) 生成预测并计算损失 l(正向传播)。

  • 通过进行反向传播来计算梯度。

  • 通过调用优化器来更新模型参数。

为了更好的衡量训练效果,我们计算每个迭代周期后的损失,并打印它来监控训练过程。

num_epochs = 3
for epoch in range(num_epochs):
    for X, y in data_iter:
        with autograd.record():
            l = loss(net(X), y)
        l.backward()
        trainer.step(batch_size)
    l = loss(net(features), labels)
    print(f'epoch {epoch + 1}, loss {l.mean().asnumpy():f}')
epoch 1, loss 0.025140
epoch 2, loss 0.000089
epoch 3, loss 0.000051
num_epochs = 3
for epoch in range(num_epochs):
    for X, y in data_iter:
        l = loss(net(X), y)
        trainer.zero_grad()
        l.backward()
        trainer.step()
    l = loss(net(features), labels)
    print(f'epoch {epoch + 1}, loss {l:f}')
epoch 1, loss 0.000167
epoch 2, loss 0.000102
epoch 3, loss 0.000102
num_epochs = 3
for epoch in range(num_epochs):
    for X, y in data_iter:
        with tf.GradientTape() as tape:
            l = loss(net(X, training=True), y)
        grads = tape.gradient(l, net.trainable_variables)
        trainer.apply_gradients(zip(grads, net.trainable_variables))
    l = loss(net(features), labels)
    print(f'epoch {epoch + 1}, loss {l:f}')
epoch 1, loss 0.000223
epoch 2, loss 0.000103
epoch 3, loss 0.000104

下面我们比较生成数据集的真实参数和通过有限数据训练获得的模型参数。 要访问参数,我们首先从 net 访问所需的层,然后读取该层的权重和偏置。 正如在从零开始实现中一样,我们估计得到的参数与生成数据的真实参数非常接近。

w = net[0].weight.data()
print(f'w的估计误差: {true_w - w.reshape(true_w.shape)}')
b = net[0].bias.data()
print(f'b的估计误差: {true_b - b}')
w的估计误差: [ 0.00055146 -0.0003221 ]
b的估计误差: [0.00057793]
w = net[0].weight.data
print('w的估计误差:', true_w - w.reshape(true_w.shape))
b = net[0].bias.data
print('b的估计误差:', true_b - b)
w的估计误差: tensor([0.0002, 0.0004])
b的估计误差: tensor([6.4850e-05])
w = net.get_weights()[0]
print('w的估计误差:', true_w - tf.reshape(w, true_w.shape))
b = net.get_weights()[1]
print('b的估计误差:', true_b - b)
w的估计误差: tf.Tensor([0.00103939 0.00020623], shape=(2,), dtype=float32)
b的估计误差: [0.00050831]

3.3.8. 小结

  • 我们可以使用Gluon更简洁地实现模型。

  • 在 Gluon 中,data 模块提供了数据处理工具,nn 模块定义了大量的神经网络层,loss 模块定义了许多常见的损失函数。

  • MXNet 的 initializer 模块提供了各种模型参数初始化方法。

  • 维度和存储可以自动推断,但注意不要在初始化参数之前尝试访问参数。

  • 我们可以使用 PyTorch 的高级 API更简洁地实现模型。

  • 在 PyTorch 中,data 模块提供了数据处理工具,nn 模块定义了大量的神经网络层和常见损失函数。

  • 我们可以通过_ 结尾的方法将参数替换,从而初始化参数。

  • 我们可以使用 TensorFlow 的高级 API更简洁地实现模型。

  • 在 TensorFlow 中,data 模块提供了数据处理工具,keras 模块定义了大量神经网络层和常见损耗函数。

  • TensorFlow的 initializers 模块提供了多种模型参数初始化方法。

  • 维度和存储可以自动推断,但注意不要在初始化参数之前尝试访问参数。

3.3.9. 练习

  1. 如果我们用 l = loss(output, y).mean() 替换 l = loss(output, y)。为了使代码的行为相同,需要将 trainer.step(batch_size) 更改为 trainer.step(1),这是为什么?

  2. 查看 MXNet 文档,了解模块 gluon.lossinit 中提供了哪些损失函数和初始化方法。用Huber损失来代替。

  3. 你如何访问 dense.weight 的梯度?

Discussions

  1. 如果我们用 nn.MSELoss() 替换 nn.MSELoss(reduction='sum'),为了使代码的行为相同,需要怎么更改学习速率?为什么?

  2. 查看 PyTorch 文档,了解提供了哪些损失函数和初始化方法。用Huber损失来代替。

  3. 你如何访问 net[0].weight 的梯度?

Discussions

  1. 查看 TensorFlow 文档,了解提供了哪些损失函数和初始化方法。用Huber损失来代替。

Discussions