Midas_Summer 2021 源码
Midas_Summer-2021 链接到数据集: : 问题描述:您必须清除此数据,在产品类别树中将所有类别分开,找出主要类别,然后使用模型进行预测。 如果您想删除一些缺少数据的类别,您也可以随意这样做,并在说明和可视化方面进行提及。 目标:预测产品类别。 展示您将如何清理和处理数据:提供给我们的数据是一组产品描述,我们需要针对相同的产品类别进行预测。 给出的数据的基础是描述。 为了对机器可理解的格式进行给定的描述,我们的目标是通过删除停用词(如a,an,the,by等)来清理数据,这些停用词通常在我们的NLP模型中被解释为噪声,在这里我们也看到了最常见的价格,免费,货真价实的保证金与产品类别无关,因此会导致噪音增加,从而降低模型的准确性。 因此,我们首先确定了它们,然后将其从原始数据中删除。 下图显示了删除常规停用词后最频繁出现的单词的分布,其中多个对我们而言并没有太大用处
下载地址
用户评论