LSTM解决了RNN中什么问题?LSTM为什么能够缓解梯度消失?LSTM常见面试题
循环神经网络(Recurrent Neural Network,RNN)是一种用于处理序列数据的神经网络。相比一般的神经网络来说,他能够处理序列变化的数据。比如某个单词的意思会因为上文提到的内容不同而有不同的含义,RNN就能够很好地解决这类问题。
2.LSTM
2.1 什么是LSTM
长短期记忆(Long short-term memory, LSTM)是一种特殊的RNN,主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。简单来说,就是相比普通的RNN,LSTM能够在更长的序列中有更好的表现。
LSTM结构(图右)和普通RNN的主要输入输出区别如下所示。
2.2 深入LSTM结构
LSTM内部主要有三个阶段:
3. 总结
以上,就是LSTM的内部结构。通过门控状态来控制传输状态,记住需要长时间记忆的,忘记不重要的信息;而不像普通的RNN那样只能够“呆萌”地仅有一种
面试题:
第一个必问的问题:LSTM解决了RNN中什么问题?为什么可以解决?
解决了RNN中梯度消失/梯度爆炸的问题。为什么可以解决的问题就是搬出公式。
LSTM常见面试题
1、LSTM、RNN、GRU区别?
2、为什么LSTM模型中既存在sigmoid又存在tanh两种激活函数,而不是选择统一一种sigmoid或者tanh?
sigmoid用在了各种gate上,产生0~1之间的值,一般只有sigmoid最直接了;
tanh用在了状态和输出上,是对数据的处理,这个用其他激活函数或许也可以。
3、为什么LSTM可以解决RNN梯度消失或者梯度爆炸的问题
这看起来很神奇,但实际上如下两个原因:
为cell state的更新函数给出了一个更加“表现良好”的导数
门控函数(gating function)允许网络决定梯度消失多少,并且可以在每个时间步长取不同的值。它们所取的值是从当前输入和隐藏状态学习到的。
以上就是LSTM解决梯度消失的本质。
总结:也就是说上述公式是一个很复杂的形式,收到6个参数的控制。
在任意一个时刻t,它的值都是随机出现在区间[0,1]或者[1,正无穷]的;
但不至于像RNN对于所有时刻的求导值要么在区间[0,1],要么都在区间[1,正无穷],所以LSTM不会出现连乘导致梯度消失和爆炸的现象。
4、LSTM为什么能够缓解梯度消失另一种思路:
下面这是RNN的连乘部分:
而sigmoid的导数取值范围在[0,0.25]之间,若想让RNN中梯度更新的导数没有梯度消失/梯度爆炸,需要控制Wh,使得相乘保持在1左右。
而LSTM的连乘部分如下:
sigmoid取值范围在[0,1]之间,且可以通过控制xt来使得梯度保持在1左右。因此能够缓解梯度消失/梯度爆炸。
5、LSTM的输入输出内部维度
常问:这里很经问的就是hidden_size(unit_number)的问题,hidden_size(unit_number)是什么?
其实hidden_size(unit_number)就是zi,zf,zo,z的全连接神经网络的神经元个数,那么一旦确定了hidden_size(unit_number),整个LSTM的内部参数也就定下来。因为ct,ht也都是依赖于hidden_size(unit_number)的。
对应的输入输出应该好好理清一下思路。
此图在上图2的基础上更进一步。这张图才是真正的使用神经网络实现LSTM的网络物理架构图。需要注意的如下几点:
1、与图2对应,图2中每个带颜色的小框实际上是借助一层具有该激活函数神经单元来实现,两个图的颜色一一对应。
2、每层神经元的个数为unit_num大小
3、每个Cell的输出向量及状态向量长度也是unit_num大小。
4、图2中浅蓝色的实心点表示上一输出和当前时刻的输入是通过向量拼接的方式构成一个新的向量,可见图3的浅蓝色虚线。
6、上述是从单个LSTM Cell角度来进行解析的,我们从代码角度,即整体角度去进行解析LSTM中各个数据的维度情况:
7、一般用LSTM做时间序列方面的预测,会出现什么问题?–预测滞后
做过时间序列的朋友可能常常会有这样的感受,用了某种算法做出来的测试集的平均绝对误差率或者r2系数都很好,但是把测试集的真实值及预测值画出来对比一下,就会发现t时刻的预测值往往是t-1时刻的真实值,也就是模型倾向于把上一时刻的真实值作为下一时刻的预测值,导致两条曲线存在滞后性,也就是真实值曲线滞后于预测值曲线,就像下图右边所显示的那样。之所以会这样,是因为序列存在自相关性,如一阶自相关指的是当前时刻的值与其自身前一时刻值之间的相关性。因此,如果一个序列存在一阶自相关,模型学到的就是一阶相关性。而消除自相关性的办法就是进行差分运算,也就是我们可以将当前时刻与前一时刻的差值作为我们的回归目标。记忆叠加方式。对很多需要“长期记忆”的任务来说,尤其好用。
但也因为引入了很多内容,导致参数变多,也使得训练难度加大了很多。因此很多时候我们往往会使用效果和LSTM相当但参数更少的GRU来构建大训练量的模型。
图片
- 2022年全国赛艇锦标赛在浙江 河北省三部电视剧获第31届中 今年1至9月河北省电子信息产
- 衡水谋划了32个特色果蔬单品 河北省打出资金和政策“组合 全国219个城市被授予“国家 河北湿地公园数量有了跨越式 粤港澳大湾区的中欧班列开行 中国空军“八一”飞行表演队
- 2022年第22号台风“尼格”已 中国空间站迎来重大时刻 空 粤支持韶关建设国家老工业城 清远清城区全新打造的校外未 广州年内将在南沙各镇街布局 广东获第二十三届中国专利奖
- 河北邢台出台20条措施 努力 河北高邑指导企业挖掘传统文 石家庄一90后志愿者成功捐献 前三季度石家庄规上工业高新 江西资溪“两山转化中心”推 畅通道兴贸易 广州海关关区
精彩推送
- LSTM解决了RNN中什么问题?LSTM为什么能够缓解梯度消失?LSTM常见面试题
- jwt是什么东西?JWT的本质是什么?JWT的认证流程介绍
- java下载途径有哪些?Java的官网下载链接一览 java17下载安装教程
- 设计模式分为几类?工厂类设计模式的代码是什么?
- flex布局是什么意思通俗解释 flex布局中的一些基本概念介绍
- UML模型图的构成有哪些?5类UML图的分类法 UML相关概述介绍
- 中小学生如何学习Python编程 python基础教程初学者指南一览
- Git下载路径是什么?Git安装组件有哪些?
- 环球今日报丨打通动力电池回收关键堵点
- 大树科技携手云采科技,助力政府公共资源交易数字化产融建设
- 宁德时代加入“天价锂矿”争夺战 斯诺威控制权归属扑朔迷离:独家
- 大树科技五周年暨3.0战略发布会圆满举行
- 保障锂电产业链协同稳定:全球新动态
- 今日申购:聚和材料
- 抖音月付怎么套出来?常用办法交给你
- 美股纳指跌0.59% B站涨22%雾芯科技满帮涨12%|实时
- 上交所退市新规是什么 重大违法退市标准是怎样的
- 车贷怎么算?车贷计算公式和还款方式盘点
- 上证指数是什么意思通俗解释 上证指数计算方法介绍
- 毛利润是什么意思?毛利润怎么算?毛利润越高反映什么?
- 支付宝提现要手续费吗贵不贵?支付宝提现收取手续费的情况介绍
- 香港股市交易时间与A股有哪些不同 港股通交易规则介绍
- 大额存单流动性怎么样 不建议你买大额存单的主要原因有这些
- 手机银行可以交医疗保险吗 医疗保险网上怎么缴费流程是怎样的
- 哪些情况个股会被st?st股票是什么意思风险性大不大?
- 股票缩量上涨意味着什么 股票出现量价背离怎么办
- 环球快资讯:天地壹号净利润与现金流背离 去年9亿理财为何仍募资
- 益世科生物去年净利升背离现金流 近三年掏空式分红
- 合盛硅业:股东富达实业拟减持不超过6444.99万股_世界微动态
- 环球报道:纵目科技营收连升应收账款高 三年一期连亏拟募资20亿
- 秦岭生物多样性 实现恢复性增长
- 动态:广西荔浦花篢镇:工作站成农户致富增收“加油站”
- 世界微资讯!陕西黄河湿地 40多万只候鸟在此栖息越冬
- 每日热议!大秦铁路:董事长包楚雄辞职
- 生态旅游:南昌市湾里管理局全力打造高颜值生态旅游区-天天快看点
- 顾客认为“没切干净” 杭州格莱美医美提到“并发症”
- 花2900元在实体店买的老板燃气灶无法安装 为何遭遇退货难?
- 每日信息:男子充话费发现名下多了两张副卡 联系联通公司后又莫名被取消?
- 全球今热点:“七万多的物品就这么丢了?”男子傻眼 韵达快递:没保价只能赔一千
- 女子花800元在高鑫医美打水光针后 皮肤越来越干还起皱_当前看点
- 生物医药板块涨2.62% 义翘神州涨14.15%居首
- 存燃油泄漏安全隐患 1843辆东风雪铁龙凡尔赛C5 X被召回_每日动态
- 中天美好摇号竞得杭州1宗住宅用地 溢价率11.3%
- 环球新动态:万达商管60亿元公司债券已获上交所受理
- 【世界独家】中电建路桥13.05亿元应收账款资产支持ABS已获受理
- 半导体板块涨1.46% 铜峰电子涨10.05%居首|环球新要闻
- 【聚看点】华电国际龙虎榜:机构净卖出1.72亿元
- 副驾座椅存安全隐患 日产召回10465辆进口英菲尼迪Q50、Q60、QX60汽车_世界通讯
- 环球最资讯丨锂电池板块涨1.04% 胜利精密涨10.04%居首
- 朝阳3宗压轴出场 北京第四批集中供地收官
- 奔驰召回超16万问题车辆 涉及进口GLE SUV、GLS SUV及国产C级汽车
- 滨江新城20亿元公司债券已获上交所受理
- 证券板块涨3.6% 华西证券涨10.01%居首
- 雄安宣武医院(新区投资部分)项目主体结构全面封顶-快看点
- 世界简讯:房地产开发板块涨7.07% 嘉凯城涨10.21%居首
- 【天天快播报】国联安中证1000指数增强型证券投资基金延长募集期
- 湖南首条智慧高速平益高速公路全线通车
- 惠升基金6只基金增聘基金经理曾华 报道
- 焦点快播:碳中和板块涨1.54% 国立科技涨11.03%居首
- 大连高新区锻造高质量发展“人才引擎”
- 罗普特前三季净利降200% 去年“上市即巅峰”募9亿|全球微资讯
- 郑州第三批集中供地成交20宗地块,总成交金额114.83亿元_全球热文
- 中海新城以28.4亿元竞得北京石景山1宗地块|当前聚焦
- 大流量!多客源!好经营!水澜之迷为创业者实现高额盈利!
- 收评:三大指数全天强势反弹 沪指重返3100点上方 环球视讯
- 世界微动态丨倍轻松前三季净利降187% 上市即巅峰安信证券保荐
- 滨江集团9.8亿元竞得杭州萧山1宗地块_动态
- 云里物里北交所上市首日跌1.5% 申万宏源保荐_世界实时
- 安信证券及2保代被监管警示 保荐野风药业履职不到位 天天热门
- 1宗地块底价成交,北京第四批集中供地剩余5宗地块29日现场竞价
- 新世界房地产2.54亿元竞得杭州萧山1宗地块_环球热推荐
- 金隅以32.315亿元+3.5万平现房销售面积竞得北京朝阳崔各庄1宗地块
- 北京现代ix35发生交通事故 副驾安全气囊未弹出致乘客身亡
- 品高股份前3季亏损 上市即巅峰超募3.5亿民生证券保荐
- 启辰大V车辆导航出现死机 车主投诉后已顺利解决
- 发改委等五部门:支持生活垃圾焚烧处理项目发行REITs
- 展非遗文化 谱蹴鞠新韵 《中国蹴鞠谱》复活系列藏品上线十八数藏
- 善泰健康开展肠道菌群个性化治疗 成功降低结直肠癌患病风险
- 共谋创新合作 赋能产业发展 杭州数字经济产业旅游国际对话大会成功举办
- 大树科技推动产业链融合 科技赋能实体经济
- 大树科技入选“甬金通”揭榜挂帅第一批项目清单
- 老赖是什么意思?老赖只要挺过2年就没事了是真的假的?
- 百万医疗险是什么意思啊 百万医疗险赔偿范围包括哪些
- 10万元利息收益是多少 银行存款利息计算公式一览
- 股市交易时间段是哪几天 创业板盘后定价交易是什么
- RCEP是什么意思有几个成员国 RCEP涵盖区域包括哪些
- 社保卡里面的钱到底能不能取出来 社保金的领取条件介绍
- 美联储什么时候加息目的是什么 美联储加息时间表一览
- reits基金有哪些国内 基础设施基金涨跌幅限制价格计算公式一览
- 净利润增长率怎么算?股票净利润增长率怎么查询?
- 医保怎么交费更方便?医保缴费方式有哪几种?
- 开护肤品店认准嘉柏俪,强悍实力铸就创业奇迹
- 天天即时:今日上市:云里物里
- 今日申购:晶品特装、长盈通、美腾科技、欧普泰、绿亨科技 天天观速讯
- 当前滚动:奔驰E300L内饰开裂 车主投诉后48小时内快速解决
- 零配件供应延迟 理想L9、L8部分车型延期交付
- 天天快资讯丨纳指跌1.58% 拼多多涨12.6%爱奇艺涨9%云集跌13.9%
- 同比增长0.8% 1-10月汽车制造业利润总额由降转升
- 环球短讯!敢谈标配的德系SUV-全新探岳家族焕新而至
- 全球观天下!湘财股份实控人控制的新湖集团拟减持不超5710万股
金融
财经
要闻
公司
吉卜力工作室如今已加入到主题公园的浪潮,并于11月1日正式对公众开放全球首个项目,将《龙猫》等经典作品的场景复原至现实世界。对于吉卜
详细>>随着在线旅游企业数量的不断增多,售卖不合理低价旅游产品、违规利用用户个人信息等问题也时有发生。11月1日,文旅部发布《文化和旅游部关
详细>>两个小时,这是越南全国首票榴莲从装车到运送至我国广西崇左友谊关口岸的时间。得益于一体化供应链,2021年,中国与越南进出口贸易额达到23
详细>>11月1日,北京商报记者梳理发现,截至9月末,10家A股上市农商行资产规模均有所扩大,重庆农商行、上海农商行仍以万亿元总资产位居前列。营
详细>>西贝餐饮集团(以下简称西贝)在儿童餐的道路上越走越深。11月1日,北京商报记者从西贝获悉,其将推出西贝儿童餐零售产品。目前,部分西贝门
详细>>新一期麻辣粉和逆回购操作如期公布。9月15日,央行发布消息称,为维护银行体系流动性合理充裕,开展4000亿元中期借贷便利(MLF)操作和20亿元
详细>>