实战Elasticsearch、Logstash、Kibana++分布式大数据搜索与日志挖掘及可视化解决方案
实战Elasticsearch、Logstash、Kibana++分布式大数据搜索与日志挖掘及可视化解决方案实战E astiesearch、stashBana分布式大数据搜索与日志挖掘及可视化解决方案高凯编菩清华大学出版社北京内容简介对大数据的搜索与挖掘,在当今网络时代是很有必要的。本书提出的分布式大数据搜索与日志挖掘及可视化解决方案是基于 Elasticsearch、 Logstash和 Kiana而形成的,它能有效应对海量大数据所带来的分布式存储与处理、全文检索、日志挖掘、可视化等的挑战。构建在全文检索开源软件 Lucene之上的Elasticsearcl,不仅能对海量规模的数据完成分布式索引与检索,还能提供数据聚合分析; Logstash能有效处理来源于各种不同数据源的日志信息; Kiana能得出可视化分析结果。本书讲解有关 ElasticsearchLogstash、 Kiana的使用,相关内容以模块化的方式进行组织,注重实战,强调实践,内容新颖,组织合理本书可为高校相关专业(如计算机科学与技术、软件工程、情报学、图书馆学、信息管理与信息系统)学生的学习和科研工作提供帮助,同时对于从事大数据搜索与挖掘、信息检索与智能处理技术的工程技术人员和希望了解网络信息检索与分析技术的爱好者也具有较高的参考价值。本书封面贴有清华大学出版社防伪标签,无标签者不得销售。版权所有,侵权必究。侵权举报电话:010-6278298913701121933图书在版编目(CIP)数据实战 Elasticsearch, Logstash、 Kiana分布式大数据搜索与日志挖掘及可视化解决方案/高凯编著北京:清华大学出版社,2015ISBN978-7-302-39984-1Ⅰ.①实…Ⅱ.①高…Ⅲ.①互联网络一情报检索Ⅳ,①G354.4中国版本图书馆CIP数据核字(2015)第086511号责任编辑:焦虹李晔封面设计:傅瑞学责任校对:徐俊伟责任印制:杨艳出版发行:清华大学出版社tie:http://www.tup.comcn,http://www.wqbook.com地址:北京清华大学学研大厦A座邮编:100084杜总机:010-62770175邮购:010-6278654投稿与读者服务:010-62776969,c-service@tup.tsinghua.edu.cn质量反馈:010-6272015,zhiliang@tup.tsinghua.edu.cn课件下載http://www.tup.com.cn,010-62795954印装者:北京鑫海金澳胶印有限公司经销:全国新华书店开本:185mm×260mm印张:15.25字数:371千字版次:2015年6月第1版印次:2015年6月第1次印刷印数:1~2000定价:49.00元产品编号:062546-01Preface序言云计算、智慧城市、移动互联网、大数据与物联网已经成为大数据时代的前瞻技术,实现了人、机器与实物的多维互联互通,监测数据、内容数据、社交数据、关系数据裂变式增长,大数据时代全方位地到来。大数据具有多(体量大)、快(生成速度快)、好(价值大)、省(高效)的特征,传统的信息搜索、数据挖掘与知识呈现理论技术难以满足当下多样化的需求。大数据的理念与理论已经成为了人所共知的科学常识,但是大数据搜索、挖掘与可视化等落地的工程实践尚有较大距离,也是当下的工程急需。本书从分布式大数据搜索、日志挖掘与可视化三个角度出发,以非结构化文本信息、半结构化的日志数据为处理对象,进行宏观解决方案与微观方法技巧全面阐释。具体地说,如何利用在全文检索开源软件Lucene之上的 Elasticsearch对大数据进行分布式计算与全文检索;如何利用 Logstash对日志文件智能分析与处理;如何利用Web接口Kiana对日志进行高效的搜索、可视化、分析等各种操作是,是本书的论述重点。从工程实践的角度掌握 Elasticsearch、 Logstash、 Kiana的基本使用方法和技巧,很有必要。目前,国内专门针对 ElasticSearch、Logstash、 Kiana进行介绍的书很少,本书是目前国内较早的一本综合介绍EIK架构的编著,涉及范围广泛,内容新颖,条理清晰,组织合理。高凯老师是我多年的朋友,我们都在大数据搜索与挖掘方向上从事教学、科研与开发工作。高凯博士严谨的治学态度、理论联系实际的做法以及敬业的态度也一直为我所学习。非常荣幸能够有这个机会来为高老师的新著作序,认真拜读后,我以为本书实战性很强,是大数据搜索与挖掘所需的上乘之作,是大数据“知著、见微、晓意”的必备工具,值得推荐!2015.5.5(张华平博士,副教授,北京理工大学大数据搜索挖掘实验室主任,ICTCLAS及 NLPIR分词软件发明者)Foreword前官建立在分布式系统之上的大数据搜索与挖掘应用,是当今IT业的研究与工程实践热点之一。在 DB-Engines公布的2015年度最受欢迎的数据库系统中, Elasticsearch名列前茅。作为开源分布式检索与数据处理平台, Elasticsearch不仅仅是一个数据库,它还是一个基于Lucene构建的开源、分布式、 RESTfuL信息检索框架。基于Elasticsearch+ Logstash+ Kiana的信息处理架构,为编程人员提供了种分布式可扩展的信息存储和全文检索机制以及基于 Logstash的日志处理机制、基于 Kiana的挖掘结果可视化机制。它不仅能对海量规模的数据完成分布式索引与检索,还能提供数据聚合分析和可视化。因此,从实战的角度掌握 Elasticsearch、 Logstash、 Kiana的基本使用方法和技巧,很有必要。大数据这个术语的出现,大概可追溯到基于 Lucene的 Apache开源项目 Nutch。从2009年开始,大数据开始成为互联网行业的流行词汇,也吸引了越来越多的关注。物联网、云计算、移动互联网、手机与平板电脑、PC以及遍布各个角落的各种各样的传感器,无一不是大数据的来源方或承载方。可以说,大数据就在我们身边。从阿里巴巴、1号店、京东商城等电子商务数据,到QQ等即时聊天内容,再到 Google、Bing、百度,又到社会网络与微博、微信等,都在生产、承载着大数据。随着信息处理量的增大,对大数据的分布式存储、快速搜索与挖掘显得特别必要。例如,挖掘用户的行为习惯和喜好,从凌乱纷繁的大数据背后找到符合用户兴趣和习惯的产品和服务,并对产品和服务进行有针对性的调整和优化,本身就蕴含着巨大的商机。但是,传统的基于关系型数据库管理系统的方法,在高效处理大数据时显得有些力不从心。虽然开源的全文检索工具 Lucene能处理非结构化和半结构化的信息,但其某些版本在分布式处理方面的不足限制了它在大数据方面的应用。我们希望找到一个快速的分布式信息检索解决方案,希望它是一个零配置和易于上手的全文检索模式,希望它能够简单地使用JSON通过HTTP索引数据,更希望它支持分布式处理并支持系统扩展,能够实时搜索,并且稳定、可靠实战 Elasticsearch、 Logstash、 Kiana-—一分布式大数据搜索与日志挖掘及可视化解决方案Elasticsearch是一个基于 Lucene的开源分布式信息检索架构和全文搜索工具。构建在 Elasticsearch基础上的日志处理工具 Logstash和信息可视化组件 Kiana,能有效衔接并高效处理由 Elasticsearch索引的分布式数据,三者优势互补,各司其职,共同完成网络大数据分布式存储、倒排索引、全文检索、Web日志处理、挖掘结果可视化这一整套的信息处理流程。目前,国内这方面的资料很少,仅有的几部译著所提及的Elasticsearch版本较低,且没有任何有关 Logstash和 Kiana的书籍。因此,我们萌发了一个想法,将 Elasticsearch、 Logstash、 Kiana(统称为ELK)联袂奉献给广大软件开发者,帮助他们尽快熟悉ELK架构,并构建自己的Web应用程序,完成对分布式信息的检索与分析工作本书强调实践,內容新颖,条理清晰,组织合理。通过实战讲解的方式,让读者更好地了解EIK架构的实现细节。全书内容涵盖ELK简介、文档索引与处理、信息检索与过滤、信息统计与分析、基于Java客户端的 Elasticsearch功能实现、 Elasticsearch配置与管理、基于 Logstash的网络日志处理、基于 Kiana的分析结果可视化、应用实例等多个部分。全书由高凯提出写作大纲,第1章和第6章由高凯撰写并完成全书通稿和审校工作,其余各章均由高莘撰写,其中,第1章概述 Elasticsearch、 Logstash、 Kiana的主要功能,对涉及到的一些概念进行简介,并从实用的角度出发,通过对实例的讲解,介绍索引、检索的实现机制;第2章对 Elasticsearch中的索引、映射等进行说明;第3章介绍 Elasticsearch中的检索功能;第4章介绍基于 Facets、 Aggregations的数据聚合与统计功能;第5章从工程实践的角度,介绍面向Java客户端的 Elasticsearch部分功能的设计与实现;第6章介绍 Elasticsearch的配置及一些高级功能、监控等的使用;第章介绍日志处理及 Logstash的应用;第8章介绍基于 Kiana的可视化技术;第9章给出一个综合应用实例,该实例从网页采集、处理、存储、索引、日志处理、可视化展示等入手,介绍了基于ELK的分布式信息检索与日志挖掘解决方案。本书的顺利完成也得益于参阅了大量的相关工作及研究成果,部分内容源自Elasticsearch、 Logstash、 Kiana的官方文档。在写作过程中,也参考了相关文献和互联网上众多热心网友提供的素材,在此谨向这些文献的作者、热心网友以及为本书提供帮助的老师,特别是那些由于篇幅所限未及在参考文献中提及的相关文献的作者和网站,致以诚挚的谢意和崇高的敬意由于我们的学识、水平均有限,书中不妥之处在所难免,恳请广大读者批评指正。编者2015年5月Contents、目录第1章概述……………1.1 Elasticsearch的安装与简单配置1.2走近 Elasticsearch……………………1.2.1 Elasticsearch是什么1.2.2 Elasticsearch中涉及到的相关概念含………1.2.3 Elasticsearch api的简单使用方式…1.2.4 Elasticsearch rte版本中的部分插件简介……++世101.2.5 Elasticsearch基本架构…121.3 Elasticsearch索引及其构建131.3.1概述131.3.2借助Head工具构建索引…………………………131.3.3 Mapping简述…151.4信息检索及其构建……155实例161.6扩展知识与阅读…211.7本章小结……市想曾+分+++“““书和日和……22第2章文档索引及管理232.1文档索引概述………………………………232.2建立索引……………………………………………………242.3通过映像 Mapping配置索引………2.3.1在索引中使用映像282.3.2管理/配置映像∴…………………………………292.3.3获取映像信息302.3.4删除映像312.4管理索引文件·…·:.:·::::::*::++-““““+.·.·312.4.1打开、关闭、检测、删除索引文件312.4.2清空索引缓存…322.4.3刷新索引数据……………32Ⅵ实战 Elasticsearch、 Logstash、 Kiana——分布式大数据搜索与曰志挖掘及可视化解决方案2.4.4优化索引数据…………………………………………322.4.5 Flush操作332.5设置中文分词器332.6对文档的其他操作………………………………………………342.6.1获取指定的文档信息…342.6.2删除文档中的信息362.6.3数据更新…………362.6.4基于POST方式批量获取文档……………………………………392.6.5删除部分文档+++鲁++世曾世世曾tttt量世世t世世t首面面如……402.7扩展知识与阅读……………………………………………………………………402.8本章小结……4…41第3章信息检索与结果过滤………………………………………………………………………423.1实验数据集描述423.2简单检索…………………………………………………………………443.3基本检索…………………………………………………………………453.3.1设置不同字段的排序权重…453.3.2指定返回的字段子集……………………………………………………463.3.3Term查询、 Terms查询、 Wildcard通配符查询……………………483.3.4 Match、 Match all、 Match phrase查询…493.3.5 Query_ string查询……503.3.6 Prefix、 Range查询…………513.3.7 More like this、 Fuzzy like this查询…………523.3.8跨字段检索±世543.4 Filter概述…………………………………………………………………………………543.5常用 Filter及其应用…563.5.1 And Filter X Or Filter………563.5.2 Bool filter…………………………………………………………………575.3 Exists filter和 Missing Filter……………………………………………573.5.4 Type Filter…583.5.5 Match all Filter…………583.5.6 Not filter………93. 5. 7 Query Filter593.6复合查询3.7结果排序…………623.8扩展知识与阅读…库暮…633.9本章小结…………………………63目录Ⅶ第4章信息统计分析与搜索提示644.1 Facets概述……………………………………………………………………644.2各种不同的 Facets统计………………..:.44+“““+“+·++·++::x·664.2.1 Terms facets:指定字段的分布情况统计…664.2.2 Range Facets:在某个范围的分布情况统计704.2.3 Histogram Facets………………………………………………724.2.4 Date histogram Facets………………754.2.5 Statistical Facets………………11,,,4.2.6 Terms stats Facets………74.3 Aggregations………………………………804.3.1概述804.3.2最值、求和、均值统计…自a“和。“,.,…………824.3.3 Stats Aggregations及 Extended Stats Aggregations……………844.3.4 Terms Aggregations…………………………………………………854.3. 5 Range Aggregations………………………………894.3.6 Date range Aggregations……………………924.3.7 Histogram Aggregations…………………………………934.3.8 Date histogram Aggregations…964.3.9 Filter Aggregations““““““““+““+··++·"984.3.10 Missing aggregations……新++“4.4搜索提示……………………………………………………………………1014.5扩展知识与阅读…………………1024.6本章小结…102第5章 Elasticsearch部分功能的Java客户端实现1035.1 Elasticsearch节点实例化·..··.“““4“““““““4+++++++-::5.1.1通过 Maven添加对Elasticsearch依赖……………………………1035.1.2初始化 Elasticsearch client……………………………5.2索引数据…………………………………1075.2.1准备JSON数据……1075.2.2索引JSON数据1085.3对索引文档的操作……1105.3.1获取索引文档…………………………………………1105.3.2删除索引文档…5.3.3更新索引文档112
用户评论
不错,值得下载学习