ban vqa:用于视觉问题回答的双线性注意力网络 源码
双线性注意力网络 该存储库是用于视觉问题回答和Flickr30k实体任务的的实现。 对于视觉问题回答任务,我们的单个模型达到70.35 ,而15个模型的整体达到71.84 (测试标准,VQA 2.0)。 对于Flickr30k Entities任务,我们的单个模型的Recall @ 1、5和10分别达到69.88 / 84.39 / 86.40 (略好于原始论文)。 有关详细信息,请参阅我们的。 该存储库基于@ hengyuan-hu的并受其启发。 我们衷心感谢您分享代码。 更新 使用torch.einsum双线性注意力网络,向后兼容。 ( ) 现在与PyTorch v1.0.1兼容。
用户评论