1. 首页
  2. 数据库
  3. 其它
  4. product classification:Flipkart产品数据集上的产品分类 源码

product classification:Flipkart产品数据集上的产品分类 源码

上传者: 2021-04-27 09:19:55上传 ZIP文件 6.21MB 热度 19次
MIDAS @ IIITD 2021年夏季实习 我尝试参加MIDAS @ IIITD 2021年夏季实习计划的任务3(NLP)。 任务的目标是主要使用产品说明来预测产品的主要类别。 资料准备 标签 数据集不直接具有主要类别属性。 但是,它包含一个名为product_category_tree的属性,使用该属性可以提取主要类别。 我注意到有些产品没有分配给主要类别。 我将此类产品分组在一起,并删除了相应的行。 此外,数据集非常不平衡。 大约30%的产品属于“服装”类别,依此类推。 因此,我只按产品数量从小到大的顺序集中在前15个类别上。 由于缺少此类训练示例,因此添加更多类别将导致准确性下降。 另一方面,如果仅考虑前5个或前10个类别,则可以提高准确性。 描述 该描述已经过如下预处理: 删除所有非字母字符和多余的空格。 将字符串转换为小写。 从字符串中删除停用词。 我spa
用户评论