Momentum :克服mini-batch的摆动,利用之前的梯度来平滑更新。采用的是指数加权移动平均的方式来实现平滑。 v t=β v t ? 1 + ( 1 ? β ) θ t v_{t}=\beta v_{t-1} + (1-\beta) heta_t vt?=βvt?1?+(1?β)θt?简言之,就是给前一个速度施加一定的权重来影响当前的速度。 所以,把指数加权平均的方式应用到Momentum中后,参数更新规则如下: { v d W [ l ]=β v d W [ l ] + ( 1 ? β ) d W [ l ] W [ l ]=W [ l ] ? α v d W [ l ] \begin{cases} v_{dW^{[l]}}=\beta v_{dW^{[l]}} + (1 - \beta) dW^{[l]} \\ W^{[l]}=W^{[l]} - \alpha v_{dW^{[l]}} \end{cases} {
vdW[l]?=βvdW[l]?+(1?β)dW[l]W[l]=W[l]?αvdW[l]??