新書推薦:
《
超加工人群:为什么有些食物让人一吃就停不下来
》
售價:HK$
99.7
《
历史的教训(浓缩《文明的故事》精华,总结历史教训的独特见解)
》
售價:HK$
62.7
《
不在场证明谜案(超绝CP陷入冤案!日本文坛超新星推理作家——辻堂梦代表作首次引进!)
》
售價:HK$
58.2
《
明式家具三十年经眼录
》
售價:HK$
524.2
《
敦煌写本文献学(增订本)
》
售價:HK$
221.8
《
耕读史
》
售價:HK$
109.8
《
地理计算与R语言 [英] 罗宾·洛夫莱斯 [德]雅纳·蒙乔 [波兰] 雅库布·诺沃萨德
》
售價:HK$
121.0
《
沈括的知识世界:一种闻见主义的实践(中华学术译丛)
》
售價:HK$
87.4
|
內容簡介: |
本书围绕大数据技术基础,重点介绍了大数据存储系统(分布式文件系统和NoSQL数据库)、大数据处理框架(Hadoop的MapReduce、Spark及实时处理框架Storm和Flink)、大数据仓库技术(Hive、Druid等)、大数据多维分析(Kylin)、大数据可视化技术和大数据综合应用等,以及当今主流的大数据平台构建技术和开源组件实践知识,可以指导读者全面、系统地掌握大数据各层的实现方案,开展各领域的大数据实践。本书可作为计算机学科相关专业,特别是数据科学与大数据技术专业的教材。
|
關於作者: |
鄂海红,博士,北京邮电大学计算机学院 副教授;科技部现代服务业共性服务联盟,副秘书长;中国通信标准化协会TC11-WG1副组长。长期从事大数据工程与数据分析、机器学习与人工智能服务、云计算与分布式系统领域的研究工作,有扎实宽广的理论基础和科研项目实践能力。作为课题负责人及主研人,完成科研项目累计34项(其中,国家级课题13项),累计发表SCIEI论文62篇;申请国家发明专利34项,软著登记25项;正式发布国家行业标准16项。曾获得省部级特等奖奖励 中国服务业科技创新奖,教育部高等学校科学研究优秀成果奖二等奖、中国通信标准化协会科学技术奖三等奖;教育部博士点基金资助;北京市青年英才计划首批资助。
|
目錄:
|
第1章大数据概述1
本章思维导图1
1.1大数据简介2
1.1.1大数据的发展历程2
1.1.2大数据的定义与特征2
1.1.3大数据与传统数据的区别3
1.2大数据平台应具备的能力3
1.3大数据平台架构5
1.4Hadoop生态系统8
1.5大数据应用10
1.5.1互联网大数据应用10
1.5.2金融行业大数据应用10
1.5.3医疗行业大数据应用11
1.5.4智慧交通大数据应用11
本章课后习题12
本章参考文献12
第2章大数据存储分布式文件系统及NoSQL数据库14
本章思维导图14
2.1分布式文件系统15
2.1.1HDFS相关概念15
2.1.2HDFS体系结构16
2.1.3HDFS存储机制18
2.1.4HDFS读写操作20
2.1.5HDFS数据导入21
2.2NoSQL数据库22
2.2.1KeyValue模型22
2.2.2KeyDocument 模型23
2.2.3KeyColumn模型24
2.2.4图模型25
2.3列族数据库25
2.3.1列族数据库简介25
2.3.2HBase的基本原理26
2.3.3HBase的数据模型30
2.4键值数据库33
2.4.1键值数据库简介33
2.4.2选择键值数据库的原因33
2.4.3Redis的数据结构简介34
2.4.4Redis的数据持久化36
2.4.5Redis的数据复制37
2.5文档数据库38
2.5.1文档数据库简介38
2.5.2MongoDB的数据类型39
2.5.3MongoDB的数据复制40
2.6图数据库42
2.6.1图数据库简介42
2.6.2图数据库的优势43
2.6.3Neo4j的基本元素与概念44
2.6.4Cypher简介46
本章课后习题47
本章参考文献47
第3章大数据处理MapReduce处理框架48
本章思维导图48
3.1MapReduce的发展背景49
3.2MapReduce框架50
3.3MapReduce的编程模型52
3.3.1MapReduce初析52
3.3.2MapReduce的运行机制57
3.3.3MapReduce的相关问题59
3.4MapReduce的集群调度60
3.4.1Hadoop1.x的传统集群调度框架60
3.4.2Hadoop2.x的集群调度框架YARN61
3.4.3Hadoop作业调度器64
本章课后习题67
本章参考文献67
第4章大数据处理分布式内存处理框架Spark 68
本章思维导图68
4.1Spark简介69
4.1.1Spark介绍69
4.1.2提出Spark的原因70
4.1.3Spark中的关键术语70
4.1.4Spark的优点71
4.2Spark框架72
4.2.1Spark框架图72
4.2.2Spark运行图73
4.2.3Spark任务调度方法73
4.3RDD概念理解74
4.3.1RDD介绍74
4.3.2RDD的操作75
4.3.3RDD的存储75
4.3.4RDD分区76
4.3.5RDD优先位置76
4.3.6RDD依赖关系76
4.4RDD操作78
4.4.1RDD创建78
4.4.2转换操作78
4.4.3行动操作80
4.5Scala语言81
4.5.1Scala介绍81
4.5.2Scala基本语法82
4.5.3Scala编写Spark示例86
4.6Spark SQL简介86
4.6.1Spark SQL与Shark的对比86
4.6.2Spark SQL的优势87
4.6.3Spark SQL生态87
4.7MLlib简介88
4.7.1MLlib介绍88
4.7.2MLlib支持机器学习算法88
本章课后习题89
本章参考文献89
第5章大数据处理实时处理框架90
本章思维导图90
5.1实时处理架构91
5.1.1基本概念91
5.1.2批量和流式计算92
5.1.3系统生态简介92
5.2Storm框架93
5.2.1Storm的基本术语和概念93
5.2.2Storm特性及运行原理94
5.2.3消息的生命周期95
5.2.4消息的可靠性保障96
5.3Flume分布式日志收集98
5.3.1Flume的基本术语和概念98
5.3.2源99
5.3.3通道100
5.3.4接收器100
5.4Kafka分布式消息队列101
5.4.1Kafka的基本术语和概念102
5.4.2生产者103
5.4.3消费者104
5.4.4数据传递的可靠性保障105
5.5Spark Streaming框架107
5.5.1Spark Streaming架构107
5.5.2输入数据源108
5.5.3DStream的转换操作108
5.5.4输出存储110
5.5.5容错机制110
5.6Flink框架112
5.6.1Flink架构112
5.6.2Client112
5.6.3JobManager113
5.6.4TaskManager114
本章课后习题115
本章参考文献115
第6章大数据查询分布式数据查询116
本章思维导图116
6.1分布式数据查询简介117
6.2Hive分布式数据仓库118
6.2.1Hive概述118
6.2.2Hive内部介绍118
6.2.3Hive架构介绍119
6.2.4HiveQL:数据定义119
6.2.5HiveQL:数据导入121
6.2.6HiveQL:查询123
6.3Druid时序数据仓储129
6.3.1Druid概述129
6.3.2架构详解132
6.3.3数据摄入135
6.3.4数据查询141
6.4Drill分布式实时查询156
6.4.1使用Apache Drill的原因156
6.4.2Drill架构与原理157
6.4.3Drill核心模块160
6.4.4使用Drill实现查询161
本章课后习题168
本章参考文献168
第7章大数据分析Kylin分布式多维数据分析170
本章思维导图170
7.1使用Apache Kylin的原因171
7.2Kylin学习的前奏172
7.2.1数据仓库的概念与产生需求172
7.2.2数据仓库与数据分析型系统174
7.2.3多维数据分析175
7.2.4OLAP与数据立方体176
7.3Kylin工作原理178
7.3.1Cube与Cuboid178
7.3.2工作流程178
7.4Kylin架构179
7.5Kylin快速入门181
7.5.1在Hive中准备数据181
7.5.2设计数据模型181
7.5.3创建Cube183
7.5.4构建Cube186
7.5.5查询Cube188
7.6增量构建188
7.6.1设计增量Cube189
7.6.2触发增量构建190
7.6.3管理Cube碎片190
7.7查询和可视化192
7.7.1Web GUI192
7.7.2Rest API194
7.7.3ODBC197
7.7.4通过Tableau访问Kylin197
7.8Cube优化201
本章课后习题204
本章参考文献204
第8章数据可视化205
本章思维导图205
8.1数据可视化定义及分类206
8.1.1数据可视化定义206
8.1.2数据可视化分类206
8.2数据可视化基础208
8.2.1数据可视化流程208
8.2.2可视化中的数据209
8.2.3可视化的基本图表210
8.2.4视图的交互211
8.3信息可视化分类212
8.3.1时空数据可视化212
8.3.2层次和网络数据可视化213
8.3.3文本和文档可视化214
8.4在商业智能中的数据可视化应用214
8.4.1商业智能可视化的基本元素215
8.4.2仪表盘的设计准则215
8.5数据可视化的实现216
8.5.1数据可视化工具216
8.5.2ECharts217
8.5.3Plotly218
本章课后习题220
本章参考文献221
第9章大数据应用系统案例互联网应用大数据系统构建222
本章思维导图222
9.1互联网业务背景介绍223
9.2案例的大数据平台技术体系架构223
9.2.1数据采集224
9.2.2数据存储226
9.2.3数据计算227
9.2.4数据应用229
本章课后习题230
本章参考文献230
|
內容試閱:
|
本书一共分为9章。第1章为大数据概述。本章首先介绍了大数据的发展历程、大数据的定义与特征、大数据与传统数据的区别;然后介绍了大数据平台应具备的能力和大数据平台架构;最后介绍了Hadoop生态开源组件和大数据技术的应用领域。第2章为大数据存储技术。本章主要介绍主流的分布式存储系统,包括相关概念、体系结构、存储机制和操作方法,主要涵盖了分布式文件系统HDFS以及4种NoSQL数据库。第3章、第4章、第5章为大数据处理技术。第3章介绍了Hadoop的MapReduce并行计算框架,第4章介绍了Spark内存计算框架,第5章介绍了实时计算框架。第6章为大数据仓库技术。本章介绍了分布式数据仓库和数据查询技术,主要包括3个组件:Hive分布式数据仓库、Druid时序数据仓储和Drill分布式实时查询。第7章为大数据多维分析技术。本章的主要内容包括大数据多维分析技术演进的需求和背景、开源Kylin的基本概念与原理、技术架构和实战操作方法。第8章为大数据可视化技术。本章详细介绍了数据可视化的定义及其分类、可视化流程,以及时空数据可视化、层次和网络数据可视化、文本和文档可视化的概念,并对商业智能中的数据可视化及其应用进行了介绍;同时讲解了常见的数据可视化的实现技术和方法。第9章为大数据应用案例。本章选择了某电影大数据平台案例,结合某电影大数据平台的技术体系架构,对大数据应用的构建流程进行了介绍,可以帮助读者整体性地理解和掌握本书知识内容的实践方法。
|
|