【NLP】Attention机制和RNN

一、说明

        循环神经网络是深度学习的主要内容之一,它允许神经网络处理文本、音频和视频等数据序列。它们可用于将序列简化为高级理解、注释序列,甚至从头开始生成新序列!

二、引进长记忆网络

        基本的 RNN 设计很难处理较长的序列,但一种特殊的变体——“长短期记忆”网络 [1]——甚至可以处理这些序列。人们发现此类模型非常强大,在翻译、语音识别和图像字幕等许多任务中取得了显着的成果。因此,循环神经网络在过去几年中变得非常普遍。

        随着这种情况的发生,我们看到越来越多的人尝试用新的属性来增强 RNN。有四个方向特别令人兴奋:       

        单独来看,这些技术都是RNN的有力扩展,但真正引人注目的是它们可以组合在一起,似乎只是更广阔空间中的点。此外,它们都依赖于相同的潜在技巧 - 称为注意力的东西 - 来工作。

        我们的猜测是,这些“增强的RNN”将在未来几年内在扩展深度学习的能力方面发挥重要作用。

2.1 神经图灵机

猜你喜欢

转载自blog.csdn.net/gongdiwudu/article/details/131423694