Notes on Section 9.2

bobown_yao

Long short-term memory(LSTM)是GRU的前身,不过本身结构比GRU复杂,而且事实证明后者的效果同样好,所以本节仅简略的介绍LSTM的结构

LSTM的特征是引入了记忆元(memory cell)

“有些文献认为记忆元是隐状态的一种特殊类型, 它们与隐状态具有相同的形状,其设计目的是用于记录附加的信息。 为了控制记忆元,我们需要许多门。 其中一个门用来从单元中输出条目,我们将其称为输出门(output gate)。 另外一个门用来决定何时将数据读入单元,我们将其称为输入门(input gate)。 ”

Image: image_001

以上展示了LSTM的部分架构,以下展示了参数之间的关系

Image: image_002

这里的C候选记忆元也就是对应GRU中的候选隐藏状态h

Image: image_003

这张图里面是完整的,包含C,H的传递路线

Image: image_004

Image: image_005

这里我们会发现一个比较重要的不同点,也就是GRU在处理状态的使用加权的凸组合,但是LSTM这里则是直接在激活处理之后相加。这说明LSTM的细胞状态并不具有数值上的稳定性,不过纯加法的有利之处是没有损失的梯度传递

以下是两种架构在工程上的比较

Image: image_006

下面是代码部分

Image: image_007Image: image_008

  • Title: Notes on Section 9.2
  • Author: bobown_yao
  • Created at : 2026-03-01 00:00:00
  • Updated at : 2026-03-08 19:46:44
  • Link: https://bobownyao.github.io/2026/03/01/Notes-on-Section-9-2/
  • License: All Rights Reserved © bobown_yao
On this page
Notes on Section 9.2