ClipBERT:[CVPR 2021口头] ClipBERT的官方PyTorch代码这是一个有效的框架可用于图像文本和视频文本任务的端到端学习 源码
卡伯特 *,*,,,,, ClipBERT的官方PyTorch代码,这是一个有效的框架,可用于图像文本和视频文本任务的端到端学习。 它以原始视频/图像+文本作为输入,并输出任务预测。 ClipBERT是基于2D CNN和转换器设计的,并使用稀疏采样策略来实现高效的端到端视频和语言学习。 在此存储库中,我们支持以下任务的端到端预培训和微调: 对COCO和VG字幕进行图像文本预训练。 在MSRVTT,DiDeMo和ActivityNet字幕上进行文本到视频检索的微调。 在TGIF-QA和MSRVTT-QA上进行视频QA微调。 在VQA 2.0上对Image-QA进行微调。 为预训练和微调添加其他图像文本或视频文本任务也是可行且容易的。 要求 我们提供了一个Docker映像,以便于复制。 请安装以下内容: (418+), (19.03+), 。 我们的脚本要求用户具有以便可
用户评论