深度学习 | 关于注意力机制你必须知道的20个知识点

1. 什么是注意力机制?
答:注意力机制是神经网络中用于自动判断输入序列中每个时间步最重要的部分,并相应调整模型注意力的机制。

2. 注意力机制的原理是什么?
答:注意力机制的基本原理是计算输入序列每个时间步的注意力权重,按权重对输入做加权求和,得到注目信息。

3. 注意力机制有哪些类型?
答:常见的注意力机制主要有软注意力、硬注意力、全局注意力、局部注意力等。

4. 如何计算软注意力权重?
答:软注意力通过神经网络来自动学习输入的注意力权重分布,通常使用双线性映射和softmax función来计算注意力分数。

5. 硬注意力机制的特点是什么?
答:硬注意力机制的特点是注意力分布是由模型设计者手工设定,不是自动学习的。硬注意力通常用于提高模型的可解释性。

6. 全局注意力机制作用是什么?
答:全局注意力机制可以建模输入序列中所有的时间步之间的依赖关系,收集全局上下文信息。

7. 局部注意力机制和全局注意力机制的区别是什么?
答:全局注意力考虑输入序列所有的时间步,局部注意力机制只关注输入序列的一部分时间步。

8. 如何使用注意力机制进行机器翻译?
答:在机器翻译模型中,可以使用编码器-解码器框架加入注意力机制,来自动判断输入句子每个词的重要程度,以产生对应的翻译输出。

9. 注意力机制常用于哪些任务?
答:注意力机制常用于神经机器翻译、问答系统、文本摘要、图像分类等任务。

10. 注意力机制有哪些挑战?
答:注意力机制的挑战主要有计算成本高、注意力解释性差、数据稀疏导致的注意力错误权重等。

11. 如何缓解注意力机制的计算成本高的问题?
答:可以采用低秩分解、位置编码等方法来减小注意力机制的参数规模和计算量。

12. 如何提高注意力机制的可解释性?
答:可以采用可视化attention map、使用硬注意力等方法来提高注意力机制的可解释性。

13. 数据稀疏会导致什么问题?如何解决?
答:数据稀疏会导致注意力机制学习到错误的注意力权重分布。可以采用充实策略来缓解这个问题,例如平滑处理、填充未见词等。

14. 注意力机制是否一定优于不使用注意力的模型?
答:不一定,注意力机制虽然可以明确地建模序列间的依赖关系,但计算复杂度较高,并不一定在所有任务上优于不使用注意力的模型。

15. 在神经网络中attention通常位于什么地方?
答:在神经网络中,注意力机制通常被加入到循环神经网络(RNN)的编码器-解码器框架中,起到提取输入序列重要特征并生成输出的作用。

16. attention score是什么?如何计算?
答:attention score是注意力机制为输入序列的每个时间步生成的注意力权重分数。可以通过softmax函数基于输入序列的特征来自动学习每个时间步的attention score。

17. 注意力机制的self-attention是什么?
答:self-attention是指注意力机制作用在自己身上的一种机制。它可以建立输入序列中的每个元素和其他所有元素之间的依赖关系,实现全局上下文建模。

18. multi-head attention的原理是什么?
答:multi-head attention通过将输入进行多次线性映射,得到多个attention "head",然后将每个head的attention输出结果拼接起来,可以建立输入序列中不同子空间之间的依赖关系。

19. 注意力权重的归一化有什么用?
答:对注意力权重进行归一化处理可以防止其中某一个时序步占用全部注意力,保证模型可以关注到输入序列中的所有时序步。

20. 在CV任务中,注意力机制主要是如何使用的?
答:在CV任务中,注意力机制主要用来关注图像中的感兴趣区域。例如,在图像分类任务中,可以使用注意力机制来关注图片中的物体区域;在图像字幕生成中,可以使用注意力机制关注相关的人物和行为等。