您的当前位置：首页正文

【机器学习】批量&随机&小批量随机梯度下降

来源：九壹网

批量梯度下降（Batch Gradient Descent）、随机梯度下降（Stochastic Gradient Descent, SGD）和小批量随机梯度下降（Mini-Batch Gradient Descent）是三种常用的优化算法，用于训练机器学习模型，尤其是神经网络。它们的主要区别在于每次更新模型参数时使用的数据量不同。

1. 批量梯度下降（Batch Gradient Descent）

原理:
批量梯度下降使用整个训练数据集来计算梯度并更新模型参数。在每次迭代（也叫一个epoch）中，算法会计算所有样本的损失函数的平均值，然后根据该平均梯度更新模型参数。

步骤:

优点:

在每次更新中，使用所有训练数据来计算梯度，因而更新方向更加准确。

缺点:

对于非常大的数据集，计算梯度需要大量的计算资源和时间。
每次参数更新只能在处理完所有训练数据后进行，因此收敛速度可能很慢。

2. 随机梯度下降（Stochastic Gradient Descent, SGD）

原理:
随机梯度下降每次只使用一个样本来计算梯度并更新模型参数。与批量梯度下降相比，SGD在每次更新时引入了一定的噪声，因为每个样本的梯度可能不同。

步骤:

随机选择一个训练样本。
计算该样本的损失函数。
计算损失函数相对于模型参数的导数（梯度）。
使用梯度更新模型参数。

优点:

更新频率更高，因为每次迭代只需要一个样本。
可以在大数据集上更快速地进行训练，因为每次更新只需要计算一个样本的梯度。

缺点:

每次使用一个样本计算的梯度是不准确的，可能会引入较大的波动，导致更新方向不稳定。
可能会在局部最优解附近振荡，收敛到全局最优解的速度较慢。

3. 小批量随机梯度下降（Mini-Batch Gradient Descent）

原理:
小批量随机梯度下降结合了批量梯度下降和随机梯度下降的优点，每次使用一个小批量（mini-batch）样本来计算梯度并更新模型参数。这个小批量通常是从训练数据中随机选择的一部分（如32个、64个或128个样本）。

步骤:

随机选择一个小批量样本（例如32个样本）。
计算该小批量样本的损失函数的平均值。
计算平均损失函数相对于模型参数的导数（梯度）。
使用平均梯度更新模型参数。

优点:

比批量梯度下降计算速度快，因为每次更新只需要计算一个小批量样本的梯度。
比随机梯度下降更稳定，因为每次更新使用多个样本的平均梯度，可以减少波动。
在大数据集上更加高效，通常能更快地收敛到全局最优解。

缺点:

仍然需要选择合适的小批量大小（mini-batch size），太大或太小都会影响算法的效率和性能。

总结区别

方法	更新频率	使用数据量	优点	缺点
批量梯度下降	低（每轮遍历所有数据）	全部数据	更新方向准确，收敛稳定	每次更新计算量大，速度慢，不适合大数据集
随机梯度下降	高（每个样本一次更新）	单个样本	更新频率高，适合大数据集	更新方向不稳定，易振荡，收敛到局部最优解可能性大
小批量随机梯度下降	适中（每小批量一次更新）	小批量样本（如32个）	平衡计算量与收敛速度，较稳定，适合大数据集	需要选择合适的小批量大小

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文