新書推薦:
《
禅心与箭术:过松弛而有力的生活(乔布斯精神导师、世界禅者——铃木大拙荐)
》
售價:HK$
66.1
《
先进电磁屏蔽材料——基础、性能与应用
》
售價:HK$
221.8
《
可转债投资实战
》
售價:HK$
99.7
《
王氏之死(新版,史景迁成名作)
》
售價:HK$
54.9
《
敢为天下先:三年建成港科大
》
售價:HK$
77.3
《
长高食谱 让孩子长高个的饮食方案 0-15周岁儿童调理脾胃食谱书籍宝宝辅食书 让孩子爱吃饭 6-9-12岁儿童营养健康食谱书大全 助力孩子身体棒胃口好长得高
》
售價:HK$
47.0
《
身体自愈力:解决内在病因的身体智慧指南
》
售價:HK$
98.6
《
非言语沟通经典入门:影响人际交往的重要力量(第7版)
》
售價:HK$
123.1
|
編輯推薦: |
本书是在Hadoop/Spark平台下开展Python应用开发,针对大数据处理周期,全面开展架构原理和编程实践的综合书籍。配套资源丰富,包括操作视频、PPT和实战程序。
|
內容簡介: |
本书基于计算机类专业对大数据平台技术和大规模数据处理的实战需求,在阐述数据科学、Hadoop和Spark配置要点和大数据处理周期的基础上,重点阐述大数据采集与存储、预处理、特征工程、数据可视化分析、机器学习基础等大数据处理技术及其Python实现,以及基于Hadoop和Spark平台的Python接口调用和机器学习编程实例分析。本书既强调了大数据处理周期的基本原理和关键技术,又突出机器学习算法及其在分布式系统中的应用编程方法。 本书可作为高等院校计算机、大数据、人工智能、软件工程等专业的教材,也可作为大数据技术研发人员和研究生的学习参考用书。
|
關於作者: |
张晓明,男,教授,博士,北京市教学名师,北京市中青年骨干教师,北京高校继续教育高水平教学团队带头人,计算机和大数据专业负责人。CCF分布式计算与系统专委会委员,全国高校计算机教育研究会理事,北京市高校计算机教育研究会常务理事。主讲《计算机网络》、《大数据技术及应用开发》等课程。出版《计算机网络教程(第2版)》、《C#网络通信程序设计》、《软件系统设计与体系结构》等教材7部,专著1部。荣获2018年北京市高等教育教学成果一等奖。从事网络计算与系统安全、大数据技术分析等研究,发表论文60余篇。
|
目錄:
|
第1章绪论00
1.1大数据技术概述00
1.1.1大数据的特点00
1.1.2大数据与数据科学的关系00
1.1.3大数据的关键技术00
1.1.4大数据的计算模式00
1.2基于Hadoop系统的大数据平台00
1.2.1Hadoop的特点00
1.2.2Hadoop的生态系统00
1.3基于Spark系统的大数据平台00
1.3.1Spark的生态系统00
1.3.2Spark与Hadoop的比较00
1.4面向实时计算的大数据平台0
1.4.1Storm介绍0
1.4.2Storm的核心组件0
1.4.3Storm的特性0
1.5大数据技术的发展趋势0
1.6Windows 10下Spark Hadoop Hive Pyspark配置0
第2章Hadoop系统应用开发基础0
2.1Hadoop YARN应用基础0
2.1.1YARN的设计目标0
2.1.2YARN的组件及架构0
2.1.3YARN的运行流程0
2.2HDFS文件系统及其应用0
2.2.1HDFS体系结构0
2.2.2HDFS的存储原理0
2.2.3HDFS的数据读写过程0
2.2.4HDFS的常用命令0
2.3MapReduce计算模型及其应用0
2.3.1MapReduce编程原理0
2.3.2MapReduce模型的应用0
2.4HBase大数据存储与访问0
2.4.1HBase的体系结构0
2.4.2Region的分区与列族0
2.4.3HBase的数据模型0
2.5基于Hadoop Streaming的应用编程技术0
2.5.1Hadoop Streaming说明0
2.5.2Hadoop Streaming应用入门0
2.6Linux系统下Hadoop集群部署0
2.6.1分布式集群配置思路0
2.6.2Linux系统基础配置0
2.6.3Hadoop平台配置0
2.7Hadoop集群实例测试0
2.7.1实例说明0
2.7.2PI实例的运行0
2.7.3WordCount实例的运行0
第3章Spark应用开发基础0
3.1Spark的Python编程环境设置0
3.2Spark的工作机制0
3.3弹性分布式数据集RDD基础0
3.4RDD的Python程序设计0
3.5Spark SQL0
3.5.1Spark SQL的特点0
3.5.2RDD、DataFrame和DataSet比较0
3.5.3Spark SQL的核心 API0
3.5.4Spark SQL编程示例0
3.5.5部分Spark SQL编程要点0
3.6Spark Streaming的应用编程技术0
3.6.1Spark Streaming的工作原理0
3.6.2Spark Streaming的编程示例0
第4章大数据采集与存储技术0
4.1网络爬虫0
4.1.1网络爬虫的基本结构及工作流程0
4.1.2网络爬虫分类0
4.1.3抓取策略0
4.1.4网络爬虫的分析算法0
4.2大数据采集平台与工具0
4.2.1Apache Flume0
4.2.2Sqoop0
4.2.3常用网络爬虫工具0
4.3网络爬虫程序设计0
4.3.1Python爬虫基本流程0
4.3.2Requests库入门0
4.3.3Requests库用于网络爬虫设计示例0
4.3.4Beautiful Soup库的应用0
4.3.5Selenium的应用技术0
4.4大数据存储与管理技术
4.4.1大数据存储与管理类型
4.4.2三种数据库比较
4.4.3NewSQL、NoSQL与OldSQL混合部署应用方案
第5章大数据预处理技术
5.1数据预处理概述
5.2数据清洗
5.2.1缺失值处理
5.2.2重复值处理
5.2.3异常值处理
5.3文本数据清洗
5.3.1纯文本的正则处理方法
5.3.2HTML网页数据的正则处理方法
5.3.3其他方法
5.4数据规范化处理
5.4.1数据规范化的常见方法
5.4.2零均值规范化示例
5.4.3特征归一化示例
5.4.4小规范化示例
5.4.5特征二值化示例
5.5数据平滑化处理
5.5.1移动平均法
5.5.2指数平滑法
5.5.3分箱法
5.6基于PCA的数据规约技术
5.6.1主成分分析技术
5.6.2在OpenCV中实现主成分分析
第6章数据表示与特征工程
6.1特征工程概述
6.1.1特征的概念与分类
6.1.2特征工程的含义和作用
6.1.3特征工程的组成
6.2类别变量表示
6.2.1OneHotEncoder
6.2.2DictVectorizer
6.3文本特征工程
6.3.1文本特征表示方法
6.3.2文本特征的计算
6.4图像特征表示
6.4.1OpenCV介绍
6.4.2图像特征点提取
6.4.3ORB
6.5音频特征表示
6.5.1PyAudio库的应用
6.5.2Librosa
第7章数据可视化技术及应用
7.1可视化技术概述
7.1.1数据可视化的概念
7.1.2数据可视化的重要应用示例
7.2ECharts应用入门
7.2.1ECharts的应用方法
7.2.2ECharts的简单应用
7.3pyecharts应用基础
7.3.1pyecharts的图表说明
7.3.2pyecharts的安装和使用方法
7.4文本可视化
7.4.1文本内容可视化
7.4.2文本关系可视化
7.4.3主题模型的可视化分析
7.4.4主题演变的文本可视化
7.5基于pyecharts实现多维数据可视化
7.5.1基于时间轴的数据可视化
7.5.2基于日历图的数据可视化
7.5.3三维空间的数据可视化
7.6大规模数据可视化的编程技术实例
第8章机器学习基础及应用技术
8.1机器学习概述
8.1.1机器学习的分类
8.1.2机器学习的基本流程
8.1.3机器学习的评估度量标准
8.1.4机器学习的距离计算方法
8.2K近邻算法
8.2.1K近邻算法概述
8.2.2KNN的应用方法
8.2.3sklearn中KNN算法实现
8.2.4利用sklearn中KNN算法实现鸢尾花分类
8.2.5K近邻算法的K值分析
8.3KMeans算法原理及应用
8.3.1KMeans算法描述
8.3.2KMeans算法的参数设计
8.3.3KMeans算法的应用
8.4LightGBM算法及应用技术
8.4.1LightGBM介绍
8.4.2LightGBM算法介绍
8.4.3LightGBM的基本应用
8.4.4LightGBM参数说明与调参
8.4.5回归模型及其预测
第9章基于Spark机器学习库的大数据推荐技术
9.1Spark机器学习库介绍
9.1.1Spark的mllib模块库
9.1.2mllib的算法库示例说明
9.1.3Spark的ml模块库
9.2大数据推荐技术
9.2.1推荐系统概述
9.2.2基于内容的推荐算法
9.2.3基于用户的协同过滤推荐
9.2.4基于物品的协同过滤推荐
9.2.5基于模型的推荐
9.3基于Spark的ALS推荐算法
9.3.1ALS算法解析
9.3.2Spark的推荐算法说明
9.4基于Spark的电影推荐模型设计与实现
9.4.1Netflix Prize评分预测竞赛
9.4.2数据分析
9.4.3模型设计
9.4.4Python电影推荐模型设计
参考文献
|
內容試閱:
|
本书的选题来源于专业发展和人工智能技术需求两方面。
首先,人工智能为许多学科专业带来了新的发展机遇,特别是计算机专业,目前其专业方向之一正朝着人工智能技术发展,急需补充大数据技术背景下的智能计算内容。在现有关系型数据库技术基础上,通过扩展补充非结构化数据库,形成大规模数据,增强机器学习的应用范围,为计算机专业带来新的发展潜力。
其次是数据科学与大数据技术本科专业的建设需要。通过学习大数据技术的基本原理和编程示例,从大一开始就设置有大数据导论课程,随后有大数据处理、大数据分析、分布式计算、人工智能、数据可视化和数据挖掘等主干课程。因此,需要培养学生的大数据系统思维和技术兴趣,从而形成完整的大数据生命周期和处理方法。
从机器学习的市场需求及发展趋势看,表现为以下三方面内容。
(1) 针对大数据计算需求,有两种解决途径: ①购置多GPU的系统,能够大幅提高算力,但价格昂贵; ②利用廉价的服务器搭建大规模的分布式集群平台。目前成熟的大数据平台主要是Hadoop和Spark系统,以及实时计算用的Storm。这些离线和实时计算模式共同形成了主流的大数据技术系统架构,在现有商业系统中发挥重要的作用。
(2) 机器学习是大数据应用中的重要研究和应用领域,对数据处理、特征分析、算法应用和模型设计,都是热点内容,需要尽快体现在教学环节和资源之中。
(3) 在编程语言和相关类库方面,Python语言已经占有优势,已经成为大数据和人工智能领域的主流编程语言。其丰富的第三方类库为用户带来了极大便利。目前,急需基于Python语言在这些平台下进行实战开发的技术书籍。
经过分析发现,现有一些图书以介绍Hadoop和Spark为主,虽有部分理论基础内容,但大数据技术不完整。在示例方面,Hadoop平台采用的是Java语言,Spark平台采用的是Scala语言,这些都算不上大数据技术开发的主流语言,很难得到普遍选用。另外有些图书阐述了Python编程技术、数据处理和机器学习算法调用等,但停留在单机编程,缺少Hadoop和Spark平台下的大数据分析和机器学习内容,更缺少大数据采集、存储、预处理等全生命周期的众多环节。因此,目前在Hadoop和Spark平台下开展Python应用开发的图书很紧缺。针对大数据处理周期、全面开展架构原理和编程实践的综合图书非常少。
本书基于以上大数据技术和实战培养背景,在内容上既包括了大数据采集、存储、预处理、特征工程、可视化分析等全生命周期的处理技术,又基于Hadoop和Spark典型大数据平台,开展数据处理和机器学习技术。在技术环境方面,建议采用平台版本Hadoop 3.1及以上、Spark 2.4.5及以上。在编程实践上,以Python语言为核心,将程序设计贯穿到了所有章节,设计了170余幅模型和流程图,实现了大量的编程示例,以及Hadoop和Spark平台的接口调用实例分析。做到了大数据平台技术、大数据处理周期与Python机器学习算法编程的全面融合实现,且突出了大数据和机器学习的应用技术,形成了本书的特色。为便于教学,本书配套PPT、源代码、习题(含答案)等教学资源,可到清华大学出版社官网下载。
本书的撰写荣获2017年教育部产学合作协同育人专项资助,要特别感谢北京普开数据有限公司的鼎力支持!同时,获得了
2019年北京高等教育“本科教学改革创新项目”的配套经费支持。本书稿历经两年多的编写修改与内部使用,并多次参与大数据技术研讨活动。特别感谢陈明教授、曹永存教授、王锁柱教授和李海生教授等提出的宝贵建议,为提升本书的质量打下了坚实的基础。在编写过程中,得到了清华大学出版社的大力帮助。此外,还参照了相关的文献和网络资料,在此一并表示感谢!
由于编著者水平有限,书中难免存在错误与不妥之处,殷切希望广大读者批评指正。
编著者2020年12月
|
|