一步步教你理解LSTM

news/2024/7/7 20:02:17

点击上方“小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达

1 什么是LSTM

LSTM全名是Long Short-Term Memory,长短时记忆网络,可以用来处理时序数据,在自然语言处理和语音识别等领域应用广泛。和原始的循环神经网络RNN相比,LSTM解决了RNN的梯度消失问题,可以处理长序列数据,成为当前最流行的RNN变体。

2 LSTM应用举例

假设我们的模型的输入是依次输入一句话的每个单词,我们需要对单词做分类,比如有两句话:(1)arrive Beijing on November 2nd,这里的Beijing是目的地;(2)leave Beijing on November 2nd,这里的Beijing是出发地。如果用普通的神经网络,输入是'Beijing',那么输出一定就是确定的,但事实上我们希望在'Beijing'前面是'arrive'时,'Beijing'被识别为目的地,在'Beijing'前面时'leave'时,'Beijing'被识别为出发地。这里LSTM就会派上用场,因为LSTM可以记住历史信息,在读到'Beijing'时,LSTM还知道在前面是'arrive'还是'leave',根据历史信息来做出不同的判断,即使输入是相同的,输出也会不同。

3 LSTM结构剖析

普通的神经元是一个输入,一个输出,如图所示: 

f1818eb25ddbd227a778d66a15fc3b96.png

对于神经元h1来讲,输入就是x1,输出就是y1,LSTM做的就是把普通的神经元,替换成LSTM的单元。

dc9434d0cf0e0b17bff421dafcc58526.png

从图中可以看到LSTM有四个输入,分别是input(模型输入),forget gate(遗忘门),input gate(输入门),以及output gate(输出门)。因此相比普通的神经网络,LSTM的参数量是它们的4倍。这3个门信号都是处于0~1之间的实数,1代表完全打开,0代表关闭。遗忘门:决定了前一时刻中memory中的是否会被记住,当遗忘门打开时,前一刻的记忆会被保留,当遗忘门关闭时,前一刻的记忆就会被清空。输入门:决定当前的输入有多少被保留下来,因为在序列输入中,并不是每个时刻的输入的信息都是同等重要的,当输入完全没有用时,输入门关闭,也就是此时刻的输入信息被丢弃了。输出门:决定当前memroy的信息有多少会被立即输出,输出门打开时,会被全部输出,当输出门关闭时,当前memory中的信息不会被输出。

4 LSTM公式推导

有了上面的知识,再来推导LSTM的公式就很简单了,图中ca2e01a80a0220069168f9b012ff4216.png代表遗忘门,cf5bcb9803a46fb739b2800951c1c319.png代表输入门,3091516090d9993be68608a46fdd16f3.png代表输出门。C是memroy cell,存储记忆信息。681ac60ef0697ba97c40ebbbff9872d3.png代表上一时刻的记忆信息,3802974735f2ec4406ecb0f40bb75db7.png代表当前时刻的记忆信息,h是LSTM单元的输出,5a90fed5f45bb9b10a9202b28941df7a.png是前一刻的输出。

aa8ef68509bf218229855545de4e527d.png

遗忘门计算:

6e94fb0d8dac2ef27a7d628dc1b562d6.png

这里的727aae66e366d77860756ba927c657f4.png是把两个向量拼接起来的意思,用sigmoid函数主要原因是得到有个0~1之间的数,作为遗忘门的控制信号。

输入门计算:

15647607d546ac4f18c275f9973eb9a4.png

当前输入:

fafbc0a3e9a0ceebec4784a9dadc1df9.png

当前时刻的记忆信息的更新:

f8c4769f7dc6ce022b722733093d48e2.png

从这个公式可以看出,前一刻的记忆信息c0e545f1634673bbf5ff1c67d3e2b03f.png通过遗忘门fb5edb385435a4e952aec7ac2a8cd29e.png,当前时刻的输入275bd42c53b04c5392c5a268a8ff71e9.png通过输入门568ee0ce17c452c19f87248945ab5b8f.png,加起来更新当前的记忆信息ec1573e36d88c43716e24ce7421872e5.png

输入门计算:

ca065508488476f49d2ad007e283c5b8.png

LSTM的输出,是由输出门和当前记忆信息共同决定的:

c32eddccf306d9076935145e61d299a4.png

这样我们就明白了LSTM的前向计算过程。有了LSTM前向传播算法,推导反向传播算法就很容易了, 通过梯度下降法迭代更新我们所有的参数,关键点在于计算所有参数基于损失函数的偏导数,这里就不细讲了。

小结

LSTM虽然结构复杂,但是只要理顺了里面的各个部分和之间的关系,是不难掌握的。在实际使用中,可以借助算法库如Keras,PyTorch等来搞定,但是仍然需要理解LSTM的模型结构。

参考文献

  1. https://www.youtube.com/watch?v=rTqmWlnwz_0&index=35&list=PLJV_el3uVTsPy9oCRY30oBPNLCo89yu49

  2. https://zybuluo.com/hanbingtao/note/581764

  3. http://www.cnblogs.com/pinard/p/6519110.html

  4. http://blog.echen.me/2017/05/30/exploring-lstms/

下载1:OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2:Python视觉实战项目52讲

在「小白学视觉」公众号后台回复:Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

下载3:OpenCV实战项目20讲

在「小白学视觉」公众号后台回复:OpenCV实战项目20讲即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~

f7ded208f489085adffb78fb893eeb59.png

af85690bb3b354ebb1fb117324e89c97.png


http://lihuaxi.xjx100.cn/news/271541.html

相关文章

学了js php就简单,学习笔记:JS + 简单的PHP实现用户注册及登录

/*-----------------JS 代码------------------------*/$(function(){var username $("#username");username.blur(function(){if(username.val()‘‘){alert("用户名不能为空");}else{checkUsername(username.val());}});function checkUsername(name){$…

T-SQL IN 谓词

T-SQL谓词之一 IN。检查指定(IN谓词前)的值,字段值或标量表达式是否包含在定义的一组元素(放在括弧内)中。这组元素可以有一或多个值,而不同值之间由逗点分开。 创建一个临时表,并插入一些值。 CREATETable#t( Fonts NVARCHAR(10))INSERTI…

peak num

class Solution {public: int findPeakElement(vector<int>& nums) { int i0; int nnums.size(); while(i<n){     if(i0){ //处理第一位        if(nums[1] < nums[0])        return 0;        else {         …

AI四巨头Google、DeepMind、Microsoft、Uber深度学习框架大比拼

编者按&#xff1a;Google、Uber、DeepMind和Microsoft这四大科技公司是当前将深度学习研究广泛应用于自身业务的典型代表&#xff0c;跻身全球深度学习研究水平最高的科技公司之列。GPipe、Horovod、TF Replicator和DeepSpeed分别是这四家公司开发应用的深度学习框架&#xff…

Redis单例、主从模式、sentinel以及集群的配置方式及优缺点对比

点击上方“方志朋”&#xff0c;选择“设为星标”回复”666“获取新整理的面试文章作者&#xff1a;爱宝贝丶my.oschina.net/zhangxufeng/blog/905611redis作为一种高效的缓存框架&#xff0c;使用是非常广泛的&#xff0c;在数据存储上&#xff0c;在运行时其将数据存储在内存…

java创建线程安全的集合

List: public static List<String> dataList Collections.synchronizedList(new ArrayList<String>()); Map: public static Map<String,String> dataMap new ConcurrentHashMap <String,String>(); 这里的线程安全仅仅指的是使用它自身提供的函数…

北京学python去哪里好_北京想学习Python应该去哪里好

统一 Executor 和 ParallelExecutor 接口&#xff0c;用户只需通过 CompiledProgram 将单卡模型转化多卡模型&#xff0c;并利用 Executor 进行训练或者预测。正式发布 AnalysisConfig 预测接口&#xff0c;支持计算图分析、算子融合等优化&#xff0c;并支持利用 Intel MKLDNN…

SQL Server 2008备份策略设计下(六)

上一篇博文探讨了各种恢复模式和备份类型&#xff0c;这一节继续来探讨如何设计备份策略。设计一个数据库的最佳备份策略&#xff0c;会面临如何选择使用哪种恢复模式的问题&#xff0c;因为恢复模式控制着备份和还原的行为。一般来讲&#xff0c;简单恢复模式一般适合用于测试…