读「Python 深度学习」数学基础

「学习」是指找到一组模型参数，使给定的训练数据样本和对应目标上的损失函数最小化。
学习的过程：随机取包含数据样本及其目标值的批量，并计算批量损失相对于网络参数的梯度（梯度可以理解为对于张量计算的倒数）。随后将网络参数沿着梯度的反方向稍稍移动（移动距离由学习率指定）。
整个学习过程之所以能够实现，是因为神经网络是一系列可微分的张量运算，因此可以使用求导的链式法则来得到梯度函数，这个函数将当前参数和当前数据批量映射为一个梯度值。
「损失」是训练过程中需要最小化的量，因此它能够衡量当前任务是否已经成功解决。
「优化器」是损失梯度更新参数的具体方式，比如 RMSProp 优化器，带动量的随机梯度下降（SGD）等。