RNN、LSTM、BiLSTM学习笔记

张开发
2026/5/30 22:15:04 15 分钟阅读
RNN、LSTM、BiLSTM学习笔记
NLP-AHU-197一、RNN1. 是什么RNN是一种专门用来处理序列数据的神经网络比如文本、语音、时间序列。2. 为什么这么设计普通神经网络假设每个输入都是独立的但序列数据前后有关联。比如读一句话前面的词会影响后面的理解。所以RNN设计了“循环”结构让信息可以往后传。3. 怎么工作的每个时间步RNN会接收当前输入和上一个时间步传过来的隐藏状态然后输出新的隐藏状态。这个隐藏状态就像“记忆”包含了之前看到的信息。4. 核心公式5. 缺点- 梯度消失反向传播时梯度越传越小远处的信息学不到- 梯度爆炸梯度越传越大训练不稳定- 实际只能记住短距离的信息大概10步左右二、LSTM1. 是什么LSTM是RNN的改进版专门为了解决RNN记不住长距离信息的问题。2. 为什么这么设计受人类记忆机制启发人会决定记住什么、忘记什么。LSTM引入了“门”的概念让网络自己学习哪些信息该保留、哪些该丢弃。3. 核心结构LSTM比RNN多了“细胞状态”可以理解成一条传送带信息在上面流动时变化很小方便梯度传播。三个门- 遗忘门决定丢掉多少旧记忆- 输入门决定加入多少新信息- 输出门决定输出什么4. 核心公式5. 为什么比RNN好细胞状态的更新是加法运算不是乘法。反向传播时梯度沿着这条路走不会快速衰减所以能记住很久以前的信息。三、BiLSTM1. 是什么BiLSTM就是把两个LSTM拼在一起一个从左往右读一个从右往左读。2. 为什么这么设计普通LSTM只能看到上文看不到下文。但很多任务需要同时看前后文。比如判断“苹果”是水果还是公司得看后面有没有“公司”这个词。3. 怎么工作的- 前向LSTM从第一个词读到最后一个词- 后向LSTM从最后一个词倒着读到第一个词- 把两个方向得到的隐藏状态拼在一起作为最终输出4. 公式5. 适用场景- 文本分类- 命名实体识别- 情感分析- 机器翻译四、三者对比RNN 有循环结构 结构简单但是记不住长距离 。LSTM 三门细胞状态 能记住长距离 但是参数多慢一点 。BiLSTM 双向拼接 能看完整上下文 但是 不能实时处理 。

更多文章