新書推薦:
《
国家豁免法的域外借鉴与实践建议
》
售價:HK$
188.2
《
大单元教学设计20讲
》
售價:HK$
76.2
《
儿童自我关怀练习册:做自己最好的朋友
》
售價:HK$
69.4
《
高敏感女性的力量(意大利心理学家FSP博士重磅力作。高敏感是优势,更是力量)
》
售價:HK$
62.7
《
元好问与他的时代(中华学术译丛)
》
售價:HK$
87.4
《
汽车传感器结构·原理·检测·维修
》
售價:HK$
109.8
《
怪谈百物语:不能开的门(“日本文学史上的奇迹”宫部美雪重要代表作!日本妖怪物语集大成之作,系列累销突破200万册!)
》
售價:HK$
65.0
《
罗马政治观念中的自由
》
售價:HK$
50.4
|
內容簡介: |
“大数据导论”是一门理论性和实践性都很强的课程。本教材针对信息管理、经济管理和其他相关专业学生的发展需求,系统、全面地介绍了关于大数据技术与应用的基本知识和技能,详细介绍了大数据与大数据时代、大数据的可视化、大数据的商业规则、大数据时代的思维变革、大数据促进医疗与健康、大数据激发创造力、大数据预测分析、大数据促进学习、大数据在云端、支撑大数据的技术、数据科学与数据科学家和大数据的未来等内容,具有较强的系统性、可读性和实用性。本书是为高等院校相关专业“大数据基础”“大数据导论”等课程全新设计编写,具有丰富实践特色的主教材,也可供有一定实践经验的软件开发人员、管理人员参考和作为继续教育的教材。
|
關於作者: |
陈树广,1972年3月生,山东聊城人,中共党员、副教授,硕士,中国计算机学会高级会员,兼任信息系党支部书记。 主要研究方向:大数据管理与应用、网络安全与IT运维 主讲课程:《计算机网络》、《大型数据库》、《互联网创业方法》《大数据技术与应用》等。 主要科研成果:主持或参与国家统计局重点项目、陕西省科技厅、陕西省哲学社会科学基金等省部级以上项目26项;合作出版教材或专著2部;公开发表学术论文18篇,其中核心期刊12篇。多年来指导大学生获得全国大学生挑战杯一等奖、多项大学生三创奖项及大创项目。为原西安统计学院“大学生记者团”与原西安财经学院“五叶草实验室”创始人。
|
目錄:
|
第1章 大数据概论
1.1 大数据技术简介
1.1.1 信息技术的发展简史
1.1.2 大数据概述
1.2 大数据时代
1.2.1 大数据的产生和作用
1.2.2 大数据时代的10个重大变化
1.3 大数据处理的基本流程
1.3.1 数据抽取与集成
1.3.2 数据分析
1.3.3 数据解释
1.4 大数据开发涉及到的关键技术
1.4.1 大数据采集技术
1.4.2 大数据预处理技术
1.4.3 大数据存储及管理技术
1.4.4 大数据处理
1.4.5 大数据分析及挖掘技术
1.4.6 大数据展示技术
第2章 大数据采集技术概述
2.1 大数据分类
2.2 大数据采集方法分类
2.3 通过系统日志采集大数据
2.3.1 Flume的基本概念
2.3.2Flume使用方法
2.3.3Flume应用案例
2.4 通过网络爬虫采集大数据
2.4.1网络爬虫原理
2.4.2网络爬虫工作流程
2.4.3网络爬虫抓取策略
2.5 Scrapy网络爬虫简介
2.5.1.Scrapy架构
2.5.2Scrapy安装与应用案例
第3章 大数据预处理架构和方法简介
3.1大数据预处理整体架构
3.1.1数据质量问题分类
3.2大数据预处理方法
3.3大数据预处理之数据清洗
3.3.1遗漏数据处理
3.3.2噪声数据处理
3.3.3不一致数据处理
3.4大数据预处理之数据集成
3.4.1模式集成问题
3.4.2冗余问题
3.4.3数据值冲突检测与消除问题
3.5大数据预处理之数据转换
3.5.1平滑处理
3.5.2合计处理
3.5.3数据泛化处理
3.5.4规格化处理
3.5.5属性构造处理
3.6大数据预处理之数据消减
3.6.1数据立方合计
3.6.2维数消减
3.6.3数据压缩
3.6.4数据块消减
3.7离散化和数值概念层次树简介
3.7.1数值概念层次树
3.7.2类别概念层次树
第4章 大数据处理技术
4.1分布式计算
4.2服务器集群
4.3大数据的技术基础
4.4GFS、MapReduce和BigTable:Google的三种大数据处理系统
4.4.1GFS 90
4.4.2MapReduce
4.4.3BigTable
第5章 Hadoop大数据处理框架简介
5.1Hadoop系统简介
5.1.1Hadoop生态圈
5.1.2Hadoop版本演进
5.1.3Hadoop发行版本
5.2HadoopHDFS分布式文件
5.2.1HDFS基本原理和设计理念
5.2.2HDFS架构和实现机制简介
5.2.3HDFS读取和写入数据简介
5.3HDFS两种操作方式:命令行和JavaAPI
5.3.1HDFS常用命令
5.3.2HDFS的Web界面
5.3.3HDFS的JavaAPI
第6章 NoSQL非关系型数据库简介
6.1NoSQL概述
6.1.1NoSQL的起因
6.1.2NoSQL的特点
6.1.3NoSQL数据库面临的挑战
6.2NoSQL数据库类型简介
6.2.1键值数据库
6.2.2列式数据库
6.2.3文档数据库
6.4.4图形数据库
第7章 HadoopHBase数据库简介
7.1HBase列式数据模型简介
7.1.1数据模型概述
7.1.2数据模型的基本概念
7.1.3概念视图
7.1.4物理视图
7.2HBaseShell常用命令和基本操作
7.2.1—般操作
7.2.2DDL操作
7.2.3DML操作
7.2.4HBase表实例
7.3HBase的物理存储和逻辑架构
7.3.1HBase的物理存储
7.3.2HBase的逻辑架构
7.4HBase常用JavaAPI
7.4.1HBase的常用JavaAPI
7.5HBaseJavaAPI编程实例
7.5.1建立连接和关闭连接
7.5.2创建表
第8章 HadoopMapReduce简介
8.1批处理模式
8.1.1MapReduce简释
8.2MapReduce基本思想
8.2.1.大数据处理思想:分而治之
8.2.2构建抽象模型:Map函数和Reduce函数
8.2.3Map函数和Reduce函数
8.3HadoopMapReduce架构
8.4HadoopMapReduce工作流程
8.5MapReduce实例分析:单词计数
8.5.1设计思路
8.5.2处理过程
8.6MapReduce执行流程和Shuffle过程
8.6.1HadoopMapReduce作业执行流程
8.6.2HadoopMapReduce的Shuffle阶段
8.6.3HadoopMapReduce的主要特点
8.7MapReduce编程实例:单词计数
8.7.1任务准备
8.7.2编写Map程序
8.7.3编写Reduce程序
8.7.4编写main函数
8.7.5核心代码包
第9章 Spark简介
9.1Spark与Hadoop
9.1.1HadoopMapRedcue缺点
9.1.2Spark的优势
9.1.3Spark的适用场景
9.1.4Spark安装与环境配置
9.2SparkRDD
9.2.1RDD的基本概念
9.2.2RDD基本操作
9.2.3RDD血缘关系
9.2.4RDD依赖类型
9.2.5阶段划分
9.2.6RDD缓存
9.3Spark总体架构和运行流程
9.3.1Spark总体架构
9.3.2Spark运行流程
9.4Spark生态圈简介
9.4.1SparkCore
9.4.2SparkStreaming
9.4.3SparkSQL
9.4.4SparkMLlib
9.4.5SparkGraphX
9.5Spark开发实例
9.5.1启动SparkShell
9.5.2SparkShell使用
9.5.3编写Java应用程序
9.6SparkStreaming简介
9.6.1SparkStreaming的系统架构
9.6.2SparkStreaming编程模型
9.6.3SparkDStream相关操作
9.7SparkStreaming编程实战(开发实例)
9.7.1流数据模拟器
第10章 数据挖掘
10.1数据挖掘概述
10.1.1什么是数据挖掘
10.1.2数据挖掘的价值类型
10.1.3数据挖掘算法的类型
10.2 SparkMLlib简介
10.2.1SparkMLlib的构成
10.2.2SparkMLlib的优势
10.3数据挖掘之分类和预测简介
10.3.1分类的基本概念
10.3.2预测的基本概念
10.4决策树和朴素贝叶斯算法简介
10.4.1决策树算法
1.决策树案例
2.决策树的建立
3.SparkMLlib决策树算法
4.SparkMLlib决策树算法实例
5.决策树算法优缺点
10.5朴素贝叶斯算法
1.贝叶斯公式
2.工作原理
3.SparkMLlib朴素贝叶斯算法
4.SparkMLlib朴素贝叶斯算法实例
5.算法优缺点
10.6回归分析预测技术简介
1.线性回归
2.SparkMLlib的SGD线性回归算法
3.SparkMLlib的SGD线性回归算法实例
4.逻辑回归
10.7聚类分析
10.7.1基本概念
10.7.2聚类分析方法的类别
1.基于划分的聚类方法
2.基于层次的聚类方法
3.基于密度的聚类方法
4.基于网格的聚类方法
5.基于模型的聚类方法
10.8k-means聚类算法简介
1.基本思想
2.SparkMLlib中的k-means算法
3.MLlib中的k-means算法实例
4.算法优缺点
10.9DBSCAN聚类算法简介
1.基本概念
2.算法描述
3.算法实例
4.DBSCAN算法算法优缺点
10.10数据挖掘之关联规则分析简介
10.10.1概述
10.10.2基本概念
10.10.3关联分析步骤
2.发现关联规则
10.11Apriori算法和FP-Tree算法简介
10.11.1Apriori关联分析算法
1.Apriori算法
2.由频繁项集产生关联规则
3.算法优缺点
10.11.2FP-Tree关联分析算法
1.FP—Tree的构造
2.FP-Tree的挖掘
3.MLlib的FP-Growth算法实例
第11章 基于大数据的精准营销
11.1精准营销概述
11.2大数据精准营销过程
1. 助力客户信息收集与处理
2. 客户细分与市场定位
3. 辅助营销决策与营销战略设计
4. 精准的营销服务
5. 营销方案设计
6. 营销结果反馈
11.3大数据精准营销方式
1. 实时竞价(RTB)
2. 交叉销售
3. 点告
4. 窄告
5. 定向广告推送
第12章 基于大数据的个性化推荐系统
12.1推荐系统概述
12.2推荐机制
1. 基于人口统计学的推荐
2. 基于内容的推荐
3. 基于协同过滤的推荐
4. 混合推荐机制
12.3推荐系统的应用
12.3.1推荐在电子商务中的应用:Amazon
12.3.2推荐在社交网站中的应用:豆瓣
第13章 大数据预测
13.1预测是大数据的核心价值
13.2大数据预测的思维改变
1. 实样而非抽样
2. 效率而非精确
3. 相关性而非因果关系
13.3大数据预测的典型应用领域
1. 天气预报
2. 体育赛事预测
3. 股票市场预测
4. 市场物价预测
5. 用户行为预测
6. 人体健康预测
7. 疾病疫情预测
8. 灾害灾难预测
9. 环境变迁预测
10. 交通行为预测
11. 能源消耗预测
第14章 大数据在金融行业的应用
14.1大数据可以应用的行业
1. 互联网和营销行业。
2. 信息化水平比较高的行业。
3. 政府及公用事业行业。
4. 制造业、物流、医疗、农业等行业。
14.2银行大数据应用场景
1. 客户画像
2. 精准营销
3. 风险管控
4. 运营优化
14.3证券行业数据应用场景
1. 股价预测
2. 客户关系管理
3. 投资景气指数预测
14.4保险行业数据应用场景
1.客户细分和精细化营销
2.欺诈行为分析
3.精细化运营
第15章 大数据在互联网行业的应用
15.1精准营销
15.2.个性化服务
15.3商品个性化推荐
1. 电子商务网站
2. 电影视频网站
3. 网络电台
4. 社交网络
5. 其他应用
第16章 大数据在物流行业的应用
16.1物流大数据的作用
1. 提高物流的智能化水平
2. 降低物流成本
3. 提高用户服务水平
16.2物流大数据应用案例
1. 车货匹配
2. 运输路线优化
3. 库存预测
4. 设备修理预测
5. 供应链协同管理
16.3Amazon物流大数据应用
1. 订单与客户服务中的大数据应用
2. 智能入库管理技术
3. 智能拣货和智能算法
16.4国际物流大数据应用
1. DHL
2. FedEx
3. FleetBoard
4. Con—WayFreight
5. C.H.Robinson
6. FRA
16.5大数据的其他应用领域
1.大数据帮助企业挖掘市场机会,探寻细分市场
2.大数据提高决策能力
3.大数据创新企业管理模式,挖掘管理潜力
4.大数据变革商业模式,催生产品和服务的创新
第17章 大数据治理
17.1大数据治理的策略
1. 大数据治理的理解
2.在大数据治理的过程,应该遵循以下规则。
3.大数据治理存在的误区
17.2元数据与主数据管理
1. 元数据
2. 主数据
3. 主数据和元数据的关系
4. 元数据管理,是数据治理的核心和基础
17.3数据质量管理
1. 数据质量管理的目标
2. 数据质量问题产生的根源
3. 数据质量评估的标准
4. 数据质量管理的流程
5. 数据质量管理的取与舍
17.4数据标准管理
1. 大数据标准体系
2. 关于数据标准认识的几个误区
3. 数据标准的定义
4. 如何制定数据标准
5. 数据标准化的难题
6. 如何应对这些难题
7. 数据标准、主数据、元数据间的关系
17.5数据资产管理
1. 数据资产与数据资产管理的定义
2. 数据资产管理的现状和挑战
3. 数据资产管理的目标
4. 数据资产管理与数据治理的关系
17.6大数据治理发展之路
1. 零散化存放是数据问题根源
2. 大数据治理带来全面解决之道
3. 大数据治理的商业价值
4. 高质量数据是企业业务创新、管理决策的基础。
5. 标准化的数据是优化商业模式、指导生产经营的前提
6. 多角度、全方位的数据是开展市场营销、争夺客户资源的关键
17.7大数据治理的五个核心要素
17.8自服务大数据治理是解决问题之道
1. 建好数据管理体系,快速识别数据
2. 建立数据治理体系,监控并快速发现问题
3. 建立数据应用体系,共享和高效使用数据
17.9大数据治理技术需要不断革新
1. 管起来:数据资产的自动化采集、存储技术
2. 有保障:数据质量探查和提升技术
3. 用起来:自助化数据服务构建技术
17.9如何选择合适的大数据治理工具
1. 大数据治理的核心——元数据管理工具
2. 大数据治理的实践——自助化数据服务平台
17.10大数据治理在人工智能的作用
1. 数据治理
2. 数据建模
3. 数据采集
4. 数据汇聚
5. 分析配置
6. 数据展现
7. 建设意见
17.11区块链和AI如何帮助主数据管理
1. 主数据管理的重要性
2. AI在主数据管理中的作用
3. 区块链在保护主数据管理方面的作用
|
內容試閱:
|
StartFragment 有人说世界的本质就是数据,在当今充满数字化数据的时代,数据处理变得更加容易、更加快速,人们能够在瞬间处理成千上万的海量数据,为了在数据中理解信息内容,发现信息与信息之间的关系,人类从没有像今天这样对数据有那么深刻的认识。相对于传统资源,大数据的规模变现周期大为缩短。以石油和大数据而论,从“价值认知”到“产业规模化”,同样的惊险一跃,二者不啻天壤之别。沈括在《梦溪笔谈》中即预言石油“后必大行于世”,而石油真正成为国民经济的血液,却在工业革命让石油勘探开采技术逐渐成熟之后。放到当今产业界的现实语境下,大数据的大变现尚有待时日。好在,单就技术而论,数据科学和技术的突飞猛进,已将大数据变现的时日,缩小到可能的“3年”、“5年”,抑或“10年”。这样的时日,足够让人跃跃欲试。
2012年以来,大数据思想启蒙运动如火如荼,一时间,从学术界、产业界、投资界到传媒业,大数据炙手可热,大数据概念迅速普及。在移动互联网时代,每个人都是大数据的创造者,随着技术的成熟,数量远超芸芸众生的传感器,将成为忠实而智慧的大数据采集者。作为一种具有战略意义的新资源,大数据具有自生性和可人工生成的特征,这是黄金、石油和货币等传统资源望尘莫及的,黄金具有稀缺性、石油不可再生、货币多了引起通货膨胀。大数据教育已经不再是大数据专业、计算机专业、信息类专业的专享知识领域,任何专业任何人都需要了解大数据的技术与应用,基于此,我们团队在开设大数据技术与应用在多年基础上编写了此教材,以满足新文科教育背景下大数据技术与应用教育的需要
从近期一些国外厂商的收购案例,我们可以略微看出一些端倪。谷歌宣布以 26 亿美元收购了数据分析公司Looker,并将该公司并入Google Cloud。Salesforce宣布以157亿美元的全股票交易收购Tableau,旨在夯实在数据可视化以及帮助企业解读所使用和所积累的海量数据的其他工具方面的工作。Cloudera 收购Arcadia ata。Arcadia ata是一家云原生AI驱动的商业智能实时分析厂商。
面对终用户的大数据产品将是未来大数据竞争的重点,我相信会未来大数据领域的创新也将来源于此。
从大数据的历史来看,大数据已经历了2个重要阶段:过高期望的峰值和泡沫化的底谷期 。现在正处于稳步向前发展的阶段。在大数据技术的发展过程中目前到达了一个,之后人们开始认识到这项新技术并没有当初预想的那么具有革命性,然后会过于悲观,之后就会经历泡沫阶段。等沉寂一定阶段之后,人们开始回归理性,正视这项技术的价值,然后开始正确的应用这项技术,从此这项技术开始走向稳步向前发展的道路。
学习过大数据的人都会感叹大数据领域的东西真是多,特别是底层技术,感觉学都学不来。经过多年的厮杀和竞争,很多优秀的产品已经脱颖而出,也有很多产品慢慢走向消亡。比如批处理领域的Spark引擎基本上已经成为批处理领域的佼佼者,Flink也基本上成为低延迟流处理领域的不二选择,Kafka也在消息中间件领域基本上占据了垄断地位。未来的底层大数据生态圈中将不再有那么多的新的技术和框架,每个细分领域都将优胜劣汰,走向成熟,更加集中化。未来更大的创新将更多来来自上层应用或者全链路的整合方面。
在大数据的上层应用方面未来将会迎来有更多的创新和发展,比如基于大数据上的BI产品,AI产品等等,某个垂直领域的大数据应用等等,我相信未来我们会看到更多这方面的创新和发展。
大数据领域并不是只有Hadoop、Spark、Flink等这类大家耳熟能详的开源产品,还有很多优秀的闭源产品,比如AWS上的Redshift,阿里的MaxCompute等等。这些产品虽然没有开源产品那么受开发者欢迎,但是他们对于很多非互联网企业来说是非常受欢迎的。因为对于一个企业来说,采用哪种大数据产品有很多因素需要考虑,是否开源并不是标准。产品是否稳定,是否有商业公司支持,是否足够安全,是否能和现有系统整合等等往往是某些企业更需要考虑的东西,而闭源产品往往在这类企业级产品特性上具有优势。开源界和公有云厂商终会取得一个平衡,开源仍然会是一个主流,仍然会是创新的主力,一些优秀的闭源产品同样也会占据一定的市场空间。
本书内容全面,系统性与逻辑性强,通俗易懂,理论联系实际,书中尽量采用实例、数据、图表、案例来帮助读者理解相关内容。特别是经验性实践性强,本书内容均为编者在多年教学亲身实践大数据技术框架后编写,能够站在基础用户的角度介绍原理、实现过程和操作要点,易于教学。书中每章后面配有习题,这些习题均围绕各章的重点内容而设,覆盖了该章的主要内容,可供教学参考。
本书可作为高等院校各专业大数据技术与应用,包括MBA、EMBA的教材或参考书,也可作为从事大数据工作的管理人员、计算机应用人员、企业各级管理人员培。
|
|