1. 首页
  2. 编程语言
  3. C
  4. ir category prediction 预测业务类别(Yelp数据集)

ir category prediction 预测业务类别(Yelp数据集)

上传者: 2024-10-14 17:04:28上传 ZIP文件 9.49MB 热度 6次

类别预测信息检索最终项目(IUB 2014)问题任务1 - 我们如何从给定的评论文本中预测餐厅的类别?任务2 - 如何根据评论的文本预测用户评论的评分

数据集:Yelp数据集挑战

方法

  • 任务1:从信息检索中的语言模型改编而来,每个文档由主题分布表示。我们使用潜在狄利克雷分配 (LDA),一种主题建模技术,从每个类别的评论文本中找到主题分布。假设类别文档是主题的混合,文档的主题分布可以表示业务类别,而不是词袋模型。使用余弦相似度海灵格距离来计算文档之间的相似度。

  • 任务2:使用机器学习方法根据评论文本预测用户评分。为特定用户的所有评论生成特征,特征由评论中的情感分析结果组成,情感分析工具是斯坦福NLP。使用J48算法训练模型,使用测试数据进行评估。评估方法包括RMSE精确度召回率准确度

用户评论