新書推薦:
《
世界文明中的作物迁徙:聚焦亚洲、中东和南美洲被忽视的本土农业文明
》
售價:HK$
99.7
《
无端欢喜
》
售價:HK$
76.2
《
股票大作手操盘术
》
售價:HK$
53.8
《
何以中国·何谓唐代:东欧亚帝国的兴亡与转型
》
售價:HK$
87.4
《
一间只属于自己的房间 女性主义先锋伍尔夫代表作 女性精神独立与经济独立的象征,做自己,比任何事都更重要
》
售價:HK$
44.6
《
泉舆日志 幻想世界宝石生物图鉴
》
售價:HK$
134.2
《
养育女孩 : 官方升级版
》
售價:HK$
50.4
《
跨界:蒂利希思想研究
》
售價:HK$
109.8
|
內容簡介: |
本书由校企“双元”合作开发,以企业真实项目的实施流程为主线,通过“电商平台用户行为数据分析”项目实战,贯穿Hadoop大数据核心技术,包括项目需求、大数据平台部署、数据采集、离线数据仓库设计与开发和项目数据可视化展示。本书内容主要涉及VMware、Xshell、IDEA等软件的安装配置;Hadoop分布式集群环境搭建; Flume、Kafka、Hive、Sqoop、ZooKeeper等Hadoop生态组件的基本工作原理、搭建及配置方法;使用Flume-Kafka-Flume架构实现数据采集;Hive离线数据仓库的设计与开发;使用pyecharts工具进行数据可视化展示。本书为省级精品在线开放课程配套教材,同时配有课程标准、软件安装包、项目源代码、习题库、微课视频等,可以帮助读者更好地学习本书内容。本书可以作为高等职业院校大数据、云计算、软件技术等相关专业教材,也可以作为从事大数据平台运维、大数据分析、云计算应用等技术人员的参考用书。
|
關於作者: |
王小洁,女,副教授,山西职业技术学院,山西职业技术学院大数据技术专业是国家\双高”建设专业群的龙头专业,与华为、新华三、中软国际等知名企业开展校企合作,在人才培养模式创新、课程教学资源建设、教材与教法改革、教师教学创新团队等方面均进行改革创新。大数据技术专业每年招生200余人,具有一定 的专业规模。
|
目錄:
|
绪 论1学习目标1重点难点1学习方法1思考与练习2模块1 项目需求3学习目标3项目概述31.1 项目业务背景31.2 项目实施计划51.2.1 项目实施流程规划51.2.2 技术选型及版本61.2.3 项目实施的教学路径71.3 项目数据字典介绍81.3.1 数据源数据结构字典81.3.2 Hive表数据字典13素养园地17项目总结17思考与练习17模块2 大数据平台部署20学习目标20项目概述202.1 大数据相关开发软件安装202.2 Linux系统环境配置282.2.1 安装虚拟机282.2.2 克隆虚拟机502.2.3 虚拟机免密码登录配置572.2.4 Linux项目路径规划702.3 Hadoop分布式集群环境搭建732.3.1 JDK安装配置732.3.2 Hadoop框架介绍及组成772.3.3 HDFS集群配置792.3.4 YARN集群配置892.3.5 HDFS Shell命令行操作952.3.6 HDFS客户端开发环境配置及测试982.3.7 HDFS API基本操作1152.3.8 MapReduce原理1212.3.9 MapReduce案例——词频统计1222.4 Hive数据仓库服务配置1312.4.1 MySQL环境配置1312.4.2 Hive环境配置1352.4.3 Hive与MySQL整合操作及Hive服务启动1382.4.4 HQL语句基本操作1412.4.5 HQL统计分析案例1432.5 Flume原理及安装部署1442.6 Sqoop原理及应用1452.6.1 Sqoop原理及安装部署1462.6.2 Sqoop数据迁移案例1472.7 ZooKeeper集群环境搭建1512.8 Kafka集群环境搭建及应用1542.8.1 Kafka集群环境搭建1542.8.2 Kafka常用命令及使用方法157素养园地159项目总结160思考与练习161模块3 数据采集165学习目标165项目概述1653.1 项目数据源及产生方法1653.2 Flume脚本设计1673.2.1 Flume采集原理及流程1673.2.2 Flume数据采集脚本设计1703.2.3 拦截器链的创建流程1723.2.4 ETL拦截器业务逻辑分析1823.2.5 分流标记拦截器业务逻辑分析1833.2.6 Flume数据采集执行脚本及实现1843.2.7 Flume数据消费脚本设计1873.2.8 Flume数据消费执行脚本及实现191素养园地195项目总结195思考与练习195模块4 离线数据仓库设计与开发198学习目标198项目概述1984.1 离线数据仓库概述1984.2 ODS层设计与开发1994.3 DWD层设计与开发2044.3.1 项目JSON解析函数及应用2044.3.2 启动日志表设计及数据加载2064.4 DWS层设计与开发2094.5 DWT层设计与开发2124.5.1 HQL关联查询(1)2124.5.2 HQL关联查询(2)2164.5.3 HQL关联查询(3)2184.5.4 设备主题表设计及数据加载2194.6 ADS层设计与开发2224.6.1 活跃用户数据表设计及数据加载2234.6.2 每日新增用户数据表设计及数据加载2244.6.3 沉默用户数据表设计及数据加载2264.6.4 本周回流用户数据表设计及数据加载2284.6.5 用户留存率数据表设计及数据加载229素养园地243项目总结243思考与练习243模块5 项目数据可视化展示246学习目标246项目概述2465.1 创建MySQL数据表2465.1.1 大数据报表系统2465.1.2 MySQL数据表的创建2475.2 Sqoop数据迁移2485.3 数据可视化2505.3.1 pyecharts可视化工具介绍2515.3.2 导入数据、绘制大屏标题2695.3.3 绘制柱状图2835.3.4 绘制象形柱状图、水球图2875.3.5 绘制柱状图与折线图的叠加图2915.3.6 绘制轮播图2945.3.7 数据大屏展示297素养园地301项目总结301思考与练习301课程学习成果评价304参考文献306
|
|