新書推薦:
《
朋党之争与北宋政治·大学问
》
售價:HK$
99.7
《
甲骨文丛书·波斯的中古时代(1040-1797年)
》
售價:HK$
88.5
《
以爱为名的支配
》
售價:HK$
62.7
《
台风天(大吴作品,每一种生活都有被看见的意义)
》
售價:HK$
53.8
《
打好你手里的牌(斯多葛主义+现代认知疗法,提升当代人的心理韧性!)
》
售價:HK$
66.1
《
新时代硬道理 广东寻路高质量发展
》
售價:HK$
77.3
《
6S精益管理实战(精装版)
》
售價:HK$
100.6
《
异域回声——晚近海外汉学之文史互动研究
》
售價:HK$
109.8
|
編輯推薦: |
本书围绕“理论联系实际”的指导思想,在内容上对 Hadoop 核心技术的阐述与典型实
践操作相辅相成,二者紧密结合、相互作用,形成完整的知识系统,具有连续性、完整性、
一致性。内容编排上引领读者在阅读过程中不断提出问题、分析问题、解决问题,进而达到
循序渐进、抽丝剥茧剖析 Hadoop 生态圈各组件的内在原理、运行机制和相互之间的联系,
达到掌握、理解、应用 Hadoop 核心技术的能力。对提高学习兴趣、提升学习效果、提高学
习质量具有重要的现实作用。
|
內容簡介: |
本书系统介绍了 Hadoop 生态系统主要组件的基本概念、特点、主要组成、运行机制及存在的问题等内
容。全书共 11 章,内容包含大数据基本概念、大数据处理平台 Hadoop、分布式文件系统 HDFS、HDFS 2.0
新特性、分布式计算框架 MapReduce、数据仓库 Hive、分布式数据库 HBase、数据迁移工具 Sqoop、日志采
集系统 Flume、NoSQL 数据库及数据可视化等内容。每一部分都有相应的实验指导,以便读者更好地学习和
掌握 Hadoop 核心技术,进一步提高实践操作能力。
本书可作为高等院校大数据、计算机类、信息管理等专业大数据课程教材,也可作为相关技术人员参考
用书。
|
關於作者: |
陈新房长期从事数据科学与大数据技术专业的教学工作,在教学过程中积累了大量的资料,具有丰富的教学经验,对课程结构、内容能够很好的把握,同时参加过相关培训,对当前高校Hadoop核心技术的教学情况有一定的掌握。在多个学期教授Hadoop核心技术与实战课程中查阅了大量相关资料和官方文档,收看了大量视频讲座,整理成文档形成讲义,这些讲义已经在9个班级使用了6轮,学生操作达到预期结果,效果良好。
|
目錄:
|
第1章 大数据概述 1
1.1 大数据的产生背景和发展历史 1
1.1.1 大数据产生的背景 2
1.1.2 大数据的发展历程 3
1.2 大数据的特征 4
1.2.1 数据量大 4
1.2.2 数据类型繁多 5
1.2.3 处理速度快 6
1.2.4 价值密度低 6
1.2.5 真实性 6
1.3 大数据的影响 7
1.3.1 大数据对科学研究的影响 7
1.3.2 大数据对思维方式的影响 8
1.3.3 大数据对社会发展的影响 9
1.3.4 大数据对就业市场的影响 10
1.3.5 大数据对人才培养的影响 10
1.4 大数据关键技术 11
1.5 大数据计算模式 13
1.6 大数据的应用 13
1.7 人工智能、大数据、物联网、云计算之间的关系 14
本章小结 15
习题 16
实验1.1 VMware虚拟机中安装CentOS系统 16
第2章 Hadoop概述及生态系统 26
2.1 Hadoop概述 26
2.1.1 Hadoop起源 26
2.1.2 Hadoop的发展简史 27
2.1.3 Hadoop的特性 29
2.1.4 Hadoop的应用现状 29
2.1.5 Hadoop的版本 30
2.2 Hadoop生态系统 31
2.2.1 HDFS 31
2.2.2 HBase 31
2.2.3 MapReduce 32
2.2.4 Hive 32
2.2.5 Pig 32
2.2.6 Mahout 32
2.2.7 ZooKeeper 32
2.2.8 Flume 33
2.2.9 Sqoop 33
2.2.10 Ambari 33
本章小结 33
习题 34
实验2.1 CentOS 7集群环境配置 34
第3章 分布式文件系统HDFS 51
3.1 分布式文件系统介绍 51
3.1.1 什么是DFS 51
3.1.2 DFS集群架构 52
3.1.3 分布式文件系统的结构 52
3.2 HDFS简介 53
3.2.1 HDFS概念 53
3.2.2 HDFS体系结构 53
3.2.3 HDFS命名空间 54
3.2.4 HDFS通信协议 54
3.2.5 HDFS客户端 54
3.2.6 HDFS特点 54
3.2.7 HDFS的局限性 55
3.3 HDFS主要组件 56
3.3.1 数据块 56
3.3.2 名称节点 58
3.3.3 数据节点 58
3.3.4 第二名称节点 58
3.3.5 数据错误与恢复 60
3.4 HDFS的数据读写过程 61
3.4.1 HDFS读数据的过程 61
3.4.2 HDFS写数据的过程 62
本章小结 63
习题 63
实验3.1 完全分布式文件系统搭建 63
实验3.2 HDFS基本访问操作 71
第4章 HDFS 2.0新特性 93
4.1 Hadoop的优化与发展 93
4.1.1 Hadoop 1.0的局限性与不足 93
4.1.2 针对Hadoop的改进与提升 94
4.2 HDFS 2.0的新特性 94
4.2.1 HDFS HA 95
4.2.2 HDFS联邦 96
本章小结 97
习题 98
实验4.1 HDFS HA配置与API访问 98
第5章 分布式计算框架MapReduce 118
5.1 MapReduce概述 118
5.1.1 MapReduce核心思想 119
5.1.2 MapReduce编程模型 120
5.1.3 MapReduce的特点 121
5.1.4 MapReduce的应用场景 121
5.2 MapReduce的工作原理 122
5.2.1 MapReduce的执行过程 122
5.2.2 Map阶段工作原理 123
5.2.3 Shuffle过程详解 123
5.2.4 Reduce阶段工作原理 126
5.3 典型实例:WordCount 126
5.3.1 WordCount的程序任务 126
5.3.2 WordCount的设计思路 126
5.3.3 一个WordCount执行过程实例 127
5.4 资源管理系统YARN 128
5.4.1 YARN设计思想 128
5.4.2 YARN体系结构 129
5.4.3 YARN工作流程 130
5.4.4 YARN的发展目标 131
本章小结 132
习题 132
实验5.1 MapReduce并行编程基础 133
实验5.2 MapReduce应用实例 139
第6章 数据仓库Hive 157
6.1 数据仓库简介 157
6.1.1 什么是数据仓库 157
6.1.2 数据仓库的结构 158
6.2 Hive基础 159
6.2.1 什么是Hive 159
6.2.2 Hive与传统数据库的区别 160
6.2.3 Hive与其他组件的关系 160
6.2.4 Hive的特点 161
6.2.5 Hive系统架构 161
6.3 Hive工作原理 162
6.3.1 Hive的数据类型 162
6.3.2 Hive的数据模型 163
6.3.3 SQL语句转换成MapReduce 165
6.3.4 Hive工作过程 166
本章小结 167
习题 167
实验6.1 数据仓库工具Hive环境搭建 168
实验6.2 数据仓库工具Hive操作 183
第7章 分布式数据库HBase 200
7.1 HBase简介 200
7.1.1 什么是HBase 200
7.1.2 HBase与传统关系型数据库的区别 201
7.1.3 HBase访问接口 202
7.2 HBase数据模型 202
7.2.1 HBase基本结构 203
7.2.2 概念视图 204
7.2.3 物理视图 205
7.2.4 面向列的存储 205
7.2.5 HBase数据模型 206
7.3 HBase 的运行机制 207
7.3.1 HBase系统架构 207
7.3.2 表和Region 209
7.3.3 Region的定位 210
7.3.4 Region服务器的工作原理 211
7.3.5 Store的工作原理 212
7.3.6 HLog的工作原理 212
本章小结 213
习题 213
实验7.1 分布式数据库HBase的安装与操作 214
第8章 数据迁移工具Sqoop 231
8.1 Sqoop简介 231
8.1.1 什么是Sqoop 231
8.1.2 Sqoop特点 232
8.1.3 数据导入的方式 232
8.2 Sqoop工作机制 232
8.2.1 Sqoop基本架构 232
8.2.2 Sqoop import 233
8.2.3 Sqoop export 234
本章小结 235
习题 235
实验8.1 Sqoop的安装与操作 235
第9章 日志采集系统Flume 251
9.1 Flume简介 251
9.1.1 什么是Flume 252
9.1.2 Flume的特点 252
9.2 Flume架构 252
9.2.1 Flume基本架构 252
9.2.2 Flume的主要组件 253
9.2.3 复杂结构 254
9.3 Flume的数据传输 255
9.3.1 Source——Event获取 255
9.3.2 Channel——Event传输 256
9.3.3 Sink——Event发送 257
9.3.4 其他组件 258
本章小结 258
习题 259
实验9.1 日志采集工具Flume 259
第10章 NoSQL数据库 280
10.1 NoSQL数据库简介 280
10.1.1 什么是NoSQL数据库 280
10.1.2 为什么用NoSQL数据库 281
10.1.3 NoSQL与关系型数据库的比较 282
10.2 NoSQL数据库分类 283
10.2.1 键值对存储数据库 283
10.2.2 列式存储数据库 284
10.2.3 文档存储数据库 284
10.2.4 图形存储数据库 285
10.2.5 各类NoSQL数据库的比较 286
10.3 NoSQL理论基石 287
10.3.1 CAP 287
10.3.2 BASE 289
10.3.3 最终一致性 289
本章小结 290
习题 290
实验10.1 MongoDB的安装与操作 291
第11章 数据可视化 299
11.1 数据可视化简介 299
11.1.1 数据可视化的发展 299
11.1.2 什么是数据可视化 302
11.1.3 视觉感知和数据可视化 302
11.1.4 数据可视化的作用 303
11.2 数据可视化工具 303
11.2.1 入门级工具 303
11.2.2 信息图表工具 304
11.2.3 地图工具 305
11.2.4 时间线工具 305
11.2.5 高级分析工具 306
本章小结 307
习题 307
实验11.1 地震数据可视化 307
参考文献 329
|
內容試閱:
|
自2006年Hadoop面世以来,其技术迅猛发展。Hadoop的本地化计算理念、弹性的多层级架构、高效的分布式计算框架,在提供了前所未有的计算能力的同时,也大大降低了计算成本,使它在大规模数据处理分析方面的表现远远超过了其他产品,不但被广泛应用于各行各业的数据分析和处理,而且成为各大企业数据平台的首选。
本书围绕“理论联系实际”的指导思想,在内容上对Hadoop核心技术的阐述与典型实践操作相辅相成,二者紧密结合、相互作用,形成完整的知识系统,具有连续性、完整性、一致性。内容编排上引领读者在阅读过程中不断提出问题、分析问题、解决问题,进而达到循序渐进、抽丝剥茧剖析Hadoop生态圈各组件的内在原理、运行机制和相互之间的联系,达到掌握、理解、应用Hadoop核心技术的能力。对提高学习兴趣、提升学习效果、提高学习质量具有重要的现实作用。
本书系统介绍了Hadoop生态系统主要组件的基本概念、特点、主要组成、运行机制及存在的问题等内容。全书共11章,内容包含大数据基本概念、大数据处理平台Hadoop、分布式文件系统HDFS、HDFS 2.0新特性、分布式计算框架MapReduce、数据仓库Hive、分布式数据库HBase、数据迁移工具Sqoop、日志采集系统Flume、NoSQL数据库及数据可视化等内容。每章开始有学习目标的提示,结尾附有习题和实验内容指导。实践指导书紧紧围绕理论知识展开设计,具有统一规范性、实践验证性等特点,易于读者在自主探索与合作交流的过程中真正理解Hadoop知识和技能、思想和方法,获得广泛的大数据处理和分析经验,不断激发学习研究数据收集、预处理、存储、清洗、分析和可视化的兴趣。
本书可作为高等院校大数据、计算机类和信息管理等专业学生的教材和教学参考书,也可作为相关技术人员的参考用书。
本书由陈新房执笔。在撰写过程中,防灾科技学院信息工程学院硕士研究生杨丽佳、汪世伟、刘义卿、赵晗清等做了大量辅助性工作,在此,向他们的辛勤工作表示衷心的感谢。
由于编者水平有限,书中错误在所难免,敬请广大读者多提宝贵意见,编者邮箱chenxinfang@cidp.edu.cn。
本书由防灾科技学院教材建设项目资助。
编 者
2024年1月
|
|