RNN的BPTT
RNN采用的梯度更新策略是BPTT,梯度分为两部分:
- 竖直方向的输出层权重:这个和传统反向传播没什么区别,因为这一层的权重只与当前loss有关
- 竖直方向的输入层和水平权重:这个就稍微复杂点,因为rnn的总loss是所有时刻loss相加的,同时每个时刻的loss又会影响到这里所说的所有权重,所以操作是:
- 计算某个时刻Et的误差项,通过反向传播来计算,最后计算梯度。
- 汇总所有的时刻计算的梯度。
RNN的BPTT
http://yoursite.com/2021/01/08/深度学习/RNN的BPTT/