如上详述,由于简单的 RNN 在反馈回路中循环时,指定输入的输出要么衰减要么呈爆炸式增长,因而这种网络难以进行训练。
长短期记忆网络
相比于其他 RNN 架构,LSTM 可缓解所谓的梯度消失问题(每层梯度会变得越来越小,直至无法影响最深的网络层),从而提供更出色的性能。
门控循环单元
GRU 是一种更简单的 LSTM 变体。它们具有更少的参数、无输出门,并将单元状态与隐藏状态进行合并。因此,GRU 的训练速度要比 LSTM 更快。
神经图灵机
神经图灵机 (NTM) 是结合了外部记忆资源的递归神经网络。NTM 可视为具有软性注意机制的 NMT 的延伸网络。
双向递归神经网络
双向递归神经网络在两个递归网络上训练输入向量,其中一个是在常规输入序列上训练,而另一个则在反向输入序列上训练。之后,这两个网络的输出将会连接在一起。