An Empirical Study of Spatial Attention Mechanisms in Deep Networks
注意力机制已经成为深部神经网络中的一个流行组成部分,但是很少有人研究从这些因素计算注意力的不同影响因素和方法如何影响性能。为了更好地理解注意力机制,我们提出了一个实证研究,在一个普遍的注意力公式内,洗净各种空间注意力元素,包括主导变压器注意,以及普遍的可变形卷积和动态卷积模块。通过对应用的有效性进行研究,发现深部网络存在明显的空间注意问题,其中一些与传统的理解背道而驰。例如,我们发现,查询和关键内容在变压器注意中的比较对于自我注意是可以忽略的,但对于编码器解码器注意是至关重要的。另一方面,具有关键内容显著性的可变形卷积的适当组合实现了最佳的精确度和效率权衡。我们的研究结果表明,在注意力机制的设计上存在着改进的空间。
用户评论