CommonCrawl MapReduce程序利用Common Crawl数据分析Google Ads指标
CommonCrawl-MapReduce在Common Crawl数据集的WARC文件中提供了Google Ads的使用指标。通过Apache Hadoop的Map Reduce框架实现这一目标。项目设置中包含多个类,依赖于CommonCrawl-Common项目。要在此项目上成功构建Maven文件,需先完成CommonCrawl-Common项目的构建。具体步骤如下:
-
检查并克隆CommonCrawl-Common项目。
-
在项目目录下运行以下命令进行Maven构建:
$> cd commoncrawl-common
$> mvn clean install
下载地址
用户评论