读「Python 深度学习」数学基础
- 「学习」是指找到一组模型参数,使给定的训练数据样本和对应目标上的损失函数最小化。
- 学习的过程:随机取包含数据样本及其目标值的批量,并计算批量损失相对于网络参数的梯度(梯度可以理解为对于张量计算的倒数)。随后将网络参数沿着梯度的反方向稍稍移动(移动距离由学习率指定)。
- 整个学习过程之所以能够实现,是因为神经网络是一系列可微分的张量运算,因此可以使用求导的链式法则来得到梯度函数,这个函数将当前参数和当前数据批量映射为一个梯度值。
- 「损失」是训练过程中需要最小化的量,因此它能够衡量当前任务是否已经成功解决。
- 「优化器」是损失梯度更新参数的具体方式,比如 RMSProp 优化器,带动量的随机梯度下降(SGD)等。