CVPR 2023:程序性感知预训练助力教学视频理解
教学视频理解的挑战与解决方案
教学视频理解任务的核心在于学习视频表征,以支持下游过程理解任务。然而,由于标注数据稀缺,从无标注视频中提取程序性知识成为一大挑战。例如,识别任务步骤、预测后续步骤等。
程序知识图 (PKG) 为解决这一难题提供了一种有效方法。PKG 将教学活动中的离散步骤表示为节点,并通过边连接顺序发生的步骤。这种图结构可以生成伪标签,用于训练视频表征,使其编码程序性知识,并泛化到多个过程理解任务。
核心思想:教学视频展示了跨任务实例重复的步骤序列,PKG 能够有效表示这种结构。通过 PKG 生成的伪标签训练视频表征,可以更好地捕捉程序性知识,进而提升下游任务的性能。
下载地址
用户评论