yelp dataset project Yelp学术数据集项目
yelp-数据集-项目Yelp学术数据集项目该项目分为以下目录:- 1.) DSParser:- a.)包含解析数据集的库b.)与数据库交互c.)过滤数据并将数据从文本文件转换为序列文件的实用程序d .)标记数据以创建训练和测试数据的实用程序2.) ReviewAggregator:- MapReduce工具,用于计算数据集中单词的unigrams、bigrams和分析它们的工具。 3.) ReviewAnnotator:-用于标记数据集的Python实用程序。现在没有被使用,而是在DSParser项目中开发了一些特性来在java中做同样的事情。 4.) DSOutputAnalyser:-包含分析unigrams、bigrams结果的工具。 5.) SLURM_Scripts:-包含运行Mahout Naive Bayes的SLURM
下载地址
用户评论