1. 首页
  2. 编程语言
  3. 其他
  4. 大数据 : 互联网大规模数据挖掘与分布式处理

大数据 : 互联网大规模数据挖掘与分布式处理

上传者: 2019-04-19 22:59:15上传 PDF文件 119.05MB 热度 30次
作者: Anand Rajaraman / Jeffrey David Ullman 出版社: 人民邮电出版社 副标题: 互联网大规模数据挖掘与分布式处理 原作名: Mining of Massive Datasets 译者: 王斌 本书是在Anand Rajaraman和Jeff Ullman于斯坦福大学教授多年的一门季度课程的材料基础上总结而成的。该课程名为“Web挖掘”(编号CS345A),尽管它已经成为高年级本科生能接受并感兴趣的课程之一,但其原本是一门为高年级研究生设计的课程。 本书内容 简单来说,本书是关于数据挖掘的。但是,本书主要关注极大规模数据的挖掘,也就是说这些数据大到无法在内存中存放。由于重点强调数据的规模,所以本书的例子大都来自 Web本身或者Web上导出的数据。另外,本书从算法的角度来看待数据挖掘,即数据挖掘是将算法应用于数据,而不是使用数据来“训练”某种类型的机器学习引擎。 本书的主要内容包括: (1) 分布式文件系统以及已成功应用于大规模数据集并行算法构建的Map-Reduce工具; (2) 相似性搜索,包括最小哈希和局部敏感哈希的关键技术; (3) 数据流处理以及面对快速到达、须立即处理、易丢失的数据的专用处理算法; (4) 搜索引擎技术,包括谷歌的PageRank、链接作弊检测及计算网页导航度(hub)和权威度(authority)的HITS方法; (5) 频繁项集挖掘,包括关联规则挖掘、购物篮分析、A-Priori及其改进算法; (6) 大规模高维数据集的聚类算法; (7) Web应用中的两个关键问题:广告管理及推荐系统。 Web本身或者Web上导出的数据。另外,本书从算法的角度来看待数据挖掘,即数据挖掘是将算法应用于数据,而不是使用数据来“训练”某种类型的机器学习引擎。 本书的主要内容包括: (1) 分布式文件系统以及已成功应用于大规模数据集并行算法构建的Map-Reduce工具; (2) 相似性搜索,包括最小哈希和局部敏感哈希的关键技术; (3) 数据流处理以及面对快速到达、须立即处理、易丢失的数据的专用处理算法; (4) 搜索引擎技术,包括谷歌的PageRank、链接作弊检测及计算网页导航度(hub)和权威度(authority)的HITS方法; (5) 频繁项集挖掘,包括关联规则挖掘、购物篮分析、A-Priori及其改进算法; (6) 大规模高维数据集的聚类算法; (7) Web应用中的两个关键问题:广告管理及推荐系统。
下载地址
用户评论