megengine.optimizer.Adadelta¶

class Adadelta(params, lr=1.0, rho=0.9, eps=1e-06, weight_decay=0.0)[源代码]¶

实现Adadelta算法。

这已经在 “ADADELTA: An Adaptive Learning Rate Method” <https://arxiv.org/abs/1212.5701> _ 中被提出。

参数

params (Union[Iterable[Parameter], dict]) – 可迭代对象，可以是一组待优化的参数，或定义几组参数的dict类型。
lr (float) – 在将delta应用于参数之前缩放比例系数。默认: 1.0
rho (float) – 用于计算平方梯度的移动平均值(running average)的系数。默认: 0.9
eps (float) – 加到分母上以提高数值稳定性的值。默认: 1e-6
weight_decay (float) – 权重衰减(L2惩罚)。默认：0

方法

`add_param_group`(param_group)	向 `Optimizer` 的 `param_groups` 中添加一组参数。
`backward`(loss)
`bcast_param`()
`clear_grad`()	把所有参数的梯度属性设置为 None。
`load_state_dict`(state)	加载优化器状态。
`state_dict`([keep_var])	导出优化器状态。
`step`()	执行单一优化步骤。
`zero_grad`()	1.0 版后已移除.

megengine.optimizer.Adagrad.zero_grad

megengine.optimizer.Adadelta.add_param_group