数据集的评价方法及研究现状
数据集的评价方法数据集是由数据样本组成的集合.样本之间是独立的单个样本拿出来仍然可以称为此目标的样本.样本数量足够多分布比较广的数据集质量较好.一般情况在CV领域中数据集的好坏由数据集的泛化性能来决定.泛化性能代表数据的特征是否具有多样性.泛化性能是没有上限的一般来说泛化性能越高越好.数据集的好坏严格来说和数据集的数量多少是没有绝对的关系我们要考虑的重点是数据集的泛化能力.对于泛化性能的高低一般来说是训练集相对于测试集而言的是相对的.1.1数据质量的评估我们用一致性和标注数据准确率来评估数据质量.一致性指的是一个标注员的标注和其他人标注一样.一致性通过确保标注员标注同样的准确或者同样的错误来防止数据随机噪音.一致性是通过共识算法来衡量的.如果没有自动化的最先进的AI工具此过程将是手动的会耗费很长时间.由于标签可能始终正确或错误因此仅靠高一致性不足以完全说明质量.
下载地址
用户评论