ir category prediction 预测业务类别(Yelp数据集)
类别预测信息检索最终项目(IUB 2014)问题任务1 - 我们如何从给定的评论文本中预测餐厅的类别?任务2 - 如何根据评论的文本预测用户评论的评分?
数据集:Yelp数据集挑战
方法:
-
任务1:从信息检索中的语言模型改编而来,每个文档由主题分布表示。我们使用潜在狄利克雷分配 (LDA),一种主题建模技术,从每个类别的评论文本中找到主题分布。假设类别文档是主题的混合,文档的主题分布可以表示业务类别,而不是词袋模型。使用余弦相似度和海灵格距离来计算文档之间的相似度。
-
任务2:使用机器学习方法根据评论文本预测用户评分。为特定用户的所有评论生成特征,特征由评论中的情感分析结果组成,情感分析工具是斯坦福NLP。使用J48算法训练模型,使用测试数据进行评估。评估方法包括RMSE、精确度、召回率和准确度。
用户评论