通过无监督随机图分区发现视频镜头类别
视频镜头通常被视为从视频中检索信息的基本元素。 近年来,视频拍摄分类已受到越来越多的关注,但是大多数方法都涉及监督学习的过程,即在标记的数据上训练多类预测器(分类器)。 在本文中,我们研究了一种无监督地发现视频镜头类别的通用框架。 贡献在特征,表示和推断上有三方面的贡献:(1)提出了一种新功能,用于捕获视频中的本地信息,该视频由小视频块(例如像素)定义。 视频单词词典因此可以离线聚类,以表征外观和运动动态。 (2)我们提出了将分类归类为自动图形分区任务的问题,因为每个图形顶点代表一个视频镜头,而由连接的图形顶点组成的分区子图代表一个聚类类别。 每个视频镜头类别的模型可以通过学习过程的投影追踪类型进行分析计算。 (3)采用基于MCMC的聚类采样算法,即Swendsen-Wang割,有效地解决了图的划分问题。 与传统的图分区技术不同,该算法能够探索近乎全局的最佳解决方案,并且无需进行良好的初始化。 我们将该方法应用于从互联网收集的各种1600张视频镜头以及TRECVID 2010数据的子集,并且采用了两个基准指标(即纯度和条件熵)来评估性能。 实验结果证明了我们的方法优于其他流行的最新技术
下载地址
用户评论