新書推薦:
《
快人一步:系统性能提高之道
》
售價:HK$
110.9
《
我们为什么会做梦:让梦不再神秘的新科学
》
售價:HK$
77.3
《
算法图解(第2版)
》
售價:HK$
78.2
《
科学的奇幻之旅
》
售價:HK$
77.3
《
画艺循谱:晚明的画谱与消闲
》
售價:HK$
143.4
《
新民说·现实政治史:从马基雅维利到基辛格
》
售價:HK$
99.7
《
宽容是件奢侈品(人生360度·一分钟经典故事)
》
售價:HK$
44.6
《
甲骨拼合六集
》
售價:HK$
333.8
|
編輯推薦: |
1、案例丰富、实操性强;2、知识点全面,重点难点突出;3、用词容易理解;4、教材配套全面,有知识点授课视频做支撑;5、浪潮集团真实项目案例,穿插到每个知识点;
|
內容簡介: |
Hadoop是目前比较流行的大数据框架之一,可使用简单的高级编程模型实现大型数据集的分布式存储和处理。本书以Hadoop的概念、集群搭建、核心组件、实战案例等为主线,较为全面地介绍了Hadoop大数据存储及处理技术的相关知识。全书共10章,前9章主要讲解Hadoop基础,内容包括初识Hadoop、Hadoop的安装与配置、高可用与联邦、分布式文件系统HDFS、集群资源管理系统YARN、分布式计算框架MapRecuer、Hadoop的I/O操作、Hadoop3.x新特性、Hadoop商业发行版等;第10章是Hadoop实战案例,以实际Hadoop框架的运用为导向引入了三个实战案例:文件合并及多目录输出、网页域名分区统计以及电商平台商品评价数据分析案例。
|
關於作者: |
浪潮优派公司教学部总经理助理,拥有多年大型软件项目开发、管理及教学经验,具有丰富的软件开发及教学经验。主要包括“华电煤业全面预算管理平台”“河南烟草订货平台”“高校毕业生就业信息网”“3G移动就业信息平台”等大型应用项目。
|
目錄:
|
第 1章 初识Hadoop91.1 Hadoop概述 91.1.1 Hadoop简介 91.1.2 Hadoop的背景 101.1.3 Hadoop的发展历程 111.1.4 Hadoop的特点 121.2 Hadoop核心组件 131.2.1 分布式文件系统HDFS 131.2.2 分布式计算框架MapReduce 151.2.3 集群资源管理器-YARN 161.3 Hadoop生态系统及相关技术简介 171.4 Hadoop的应用场景 20本章小结 22习题 22第 2章 Hadoop安装与配置 242.1 Hadoop的安装方式 242.2 伪分布式安装 252.2.1 安装前的准备工作 252.2.2 Hadoop安装与配置 312.2.3 启动与停止Hadoop 352.2.4 访问Hadoop 372.3 完全分布式安装 382.3.1 Hadoop集群规划 392.3.2 安装前的准备工作 392.3.3 Hadoop安装与配置 432.3.4 集群启动与监控 452.3.5 集群节点的添加与删除 47本章小结 50习题 51第3章 高可用与联邦 523.1 高可用 523.2 为什么需要高可用 523.3 HDFS高可用 533.3.1 HDFS高可用运行流程 543.3.2 HDFS高可用环境搭建 553.4 YARN高可用 653.5 联邦 69本章小结 70习题 70第4章 分布式文件系统HDFS 714.1 HDFS概述 714.1.1 HDFS简介 714.1.2 HDFS架构 724.2 HDFS的基本概念 734.2.1 命名空间与块存储服务 734.2.2 数据块 744.2.3 数据复制 754.2.4 心跳检测与副本恢复 764.3 HDFS的数据读写流程 774.3.1 数据写入流程 774.3.2 数据读取流程 784.4 HDFS元数据管理机制 794.4.1 元数据持久化机制 804.4.2 元数据合并机制 814.5 HDFS Shell命令 834.5.1文件系统常用操作命令 834.5.2 常用管理命令 dfsadmin 874.6 开发环境搭建 904.6.1 maven简介 904.6.2 基于Maven+Eclipse构建Hadoop开发调试环境 914.7 Java API应用 954.7.1 HDFS文件系统操作涉及的类 954.7.2 RPC的原理及应用 99本章小结 101习题 102第5章 集群资源管理系统YARN 1035.1 YARN产生背景 1035.2 YARN在共享集群模式中的应用 1045.3 YARN的设计思想 1065.3.1 YARN的基本架构 1065.3.2 ResourceManager HA 1085.4 YARN的工作流程 1115.5 YARN的资源调度器 1125.5.1 调度选项 1125.5.2 FIFO Scheduler 1135.5.3 Capacity Scheduler 1135.5.4 Fair Scheduler 116本章小结 122习题 123第6章 分布式计算框架MapReduce 1246.1 MapReduce概述 1246.2 map和reduce的处理过程 1246.2.1 处理过程概述 1246.2.2 MapReduce入门案例 1266.2.3 关于shuffle 1326.2.4 YARN对MapReduce的资源调度 1346.2.5 map的本地化 1356.3 MapReduce进阶 1356.3.1 Combiner 1356.3.2 Partioner 1366.3.3 MapReduce输入的处理类 1376.3.4 MapReduce输出的处理类 1386.4 案例 139本章小结 153习题 153第7章 Hadoop的I/O操作 1557.1 IO操作中的数据完整性检查 1557.2 I/O操作中的数据压缩 1567.2.1 压缩算法 1577.2.2 压缩和解压缩 1577.3 Hadoop I/O序列化接口 1597.3.1 序列化 1597.3.2 Hadoop序列化 1597.4自定义序列化类 1637.5基于文件的数据结构 1657.5.1 SequenceFile 1657.5.2 SequenceFileInputFormat 166本章小结 166习题 167第8章 Hadoop 3.x新特性 1688.1 Hadoop 3.x概述 1688.2 Hadoop 3.x的改进 1698.2.1 JDK升级 1698.2.2 EC技术 1698.2.3 YARN优化 1728.2.4 支持多NameNode 1748.2.5 DataNode内部负载均衡 1778.2.6 端口号的改变 1808.3 Hadoop 3.x其他新特性 1818.3.1 shell脚本重写 1818.3.2 GPU和FPGA支持 181本章小结 182习题 182第9章 Hadoop商业发行版 1849.1 Hadoop集群管理的挑战 1849.2 CDH概述 1849.3 Cloudera Manager概述 1859.3.1 Cloudera Manager的架构 1869.3.2 Cloudera Manager中的基本概念 1879.4 Cloudera Manager及CDH离线安装部署 1899.4.1 集群部署规划 1909.4.2 安装前的准备工作 1919.4.3 前置软件安装 1929.4.4 Cloudera Manager安装与配置 1949.4.5 CDH部署 1969.4.6 Cloudera Manager搭建Hadoop集群 1979.4.7 启用HDFS HA和YARN HA 2039.5 Cloudera Manager的功能 2069.5.1 Cloudera Manager的基本核心功能 2069.5.2 Cloudera Manager的高级功能 2129.6 Hadoop其他商业发行版介绍 2149.6.1 HDP 2149.6.2 MapR Hadoop 2159.6.3 华为Hadoop 216本章小结 216习题 216第 10章 Hadoop实战案例 21710.1 项目背景 21710.2 Apache Avro 21710.2.1 Apache Avro概述 21810.2.2 Schema 21810.2.3 Avro序列化与反序列化案例 21910.3 案例一:Avro文件合并多目录输出 22310.3.1 需求概述 22310.3.2 数据描述 22410.3.3 设计思路分析 22510.3.4 功能实现 22610.4 案例二:网页域名分区统计 23310.4.1需求概述 23310.4.2 数据描述 23410.4.3 设计思路分析 23810.4.4 功能实现 23810.5 案例三:电商平台商品评价数据分析 24410.5.1需求描述 24410.5.2 数据描述 24510.5.3 设计思路分析 24510.5.4 功能实现 246本章小结 252习题 252
|
|