Enjoy Hamburger:[ICLR 2021]注意比矩阵分解好吗? 源码
汉堡包 :hamburger: 汉堡包的正式实施, (ICLR 2021) 正在施工:construction:。 介绍 此回购提供了Hamburger的正式实现以进行进一步研究。 我们衷心希望本文能给您带来关于注意力机制的启发,特别是低排名和优化驱动方法如何帮助在深度学习中为所谓的全局信息建模。 我们将全局上下文问题建模为低秩完成问题,并表明其优化算法可以帮助设计全局信息块。 然后,本文提出了一系列汉堡包,其中我们使用优化算法来求解MD,以将输入表示分解为子矩阵并重建低秩嵌入。 谨慎应对通过MD反向传播的渐变时,具有不同MD的汉堡包可以对抗流行的全局上下文模块的自我关注。 我们正在研究一些令人兴奋的话题。 请等待我们的新论文! 请享用汉堡包! 组织 本节介绍此存储库的组织。 我们强烈建议读者阅读博客(即将推出),作为本文的补充! 博客。 关于汉堡包及其以外的一些随机想法。 根据汉堡包的可能方向。 常问问题。
用户评论