SGD¶

class SGD(params, lr, momentum=0.0, nesterov=False, weight_decay=0.0)[源代码]¶

实现随机梯度下降。

Nesterov momentum的实现是基于 “On the importance of initialization and momentum in deep learning” 中的公式。

参数

params (Union[Iterable[Parameter], dict]) – 可迭代对象，可以是一组待优化的参数，或定义几组参数的dict类型。
lr (float) – 学习率(learning rate)。
momentum (float) – momentum因子。默认：0.0
nesterov (bool) – 启用 Nesterov momentum, 默认: 关闭
weight_decay (float) – 权重衰减(L2范数惩罚)。默认：0.0

上一页

Optimizer

下一页

AdamW