新書推薦:
《
河流之齿
》
售價:HK$
59.8
《
新经济史革命:计量学派与新制度学派
》
售價:HK$
89.7
《
盗墓笔记之秦岭神树4
》
售價:HK$
57.3
《
战胜人格障碍
》
售價:HK$
66.7
《
逃不开的科技创新战争
》
售價:HK$
103.3
《
漫画三国一百年
》
售價:HK$
55.2
《
希腊文明3000年(古希腊的科学精神,成就了现代科学之源)
》
售價:HK$
82.8
《
粤行丛录(岭南史料笔记丛刊)
》
售價:HK$
80.2
|
編輯推薦: |
1)采用“理实一体化”的教学方式,既有教师授课部分又有让学生独立思考、上机操作的内容。
2)包含丰富的教学资源,本书配有微课视频、教学课件、习题答案等。
3)紧跟时代潮流,注重技术变化,书中包含了最新的大数据分析知识及一些开源库的使用。
4)编写本书的教师都具有多年的教学经验,重难点突出,能够激发学生的学习热情。
|
內容簡介: |
《数据清洗》主要介绍数据清洗技术的基本概念与应用。全书共有8章,分别讲述了数据清洗基础、数据清洗方法、文件类型、数据采集与抽取、Excel数据清洗与转换、ETL数据清洗与转换、Python数据清洗、R语言数据清洗。
《数据清洗》将理论与实践操作相结合,通过大量的案例帮助读者快速了解和应用大数据清洗的相关技术。针对书中重要的、核心的知识点,提供了较多的练习,帮助读者达到熟练应用的目的。
《数据清洗》可作为高职高专院校大数据技术与应用、软件技术、信息管理、计算机网络等专业的专业课教材,也可作为大数据爱好者的参考书。
|
關於作者: |
黄源,重庆航天职业技术学院副教授,参加工作以来,一直从事计算机课程的教学与科研,公开发表科研,教改论文多篇,并于2013年获得副教授职称。积极参加学校的精品课程建设与微课改革,出版专著3部,以前参编的北大出版社《网页设计教程与实训》曾获教材一等奖。
|
目錄:
|
目录
前言
第1章数据清洗基础
1.1数据清洗概述
1.1.1数据清洗的定义
1.1.2数据清洗的对象
1.1.3数据清洗的原理
1.1.4数据清洗的评估
1.1.5数据清洗的框架模型
1.1.6数据清洗研究与应用展望
1.1.7数据清洗的行业发展
1.2数据标准化
1.2.1数据标准化简介
1.2.2数据标准化方法
1.2.3数据标准化的实例
1.3数据清洗的常用工具
1.4实训1安装和运行Kettle
1.5实训2安装和运行OpenRefine
1.6实训3安装和运行Python 3
1.7小结
习题1
第2章数据清洗方法
2.1数据质量
2.1.1数据质量的定义
2.1.2数据质量中的常见术语
2.2数据预处理
2.2.1数据预处理简介
2.2.2数据预处理方法
2.3数据清洗方法
2.3.1数据缺失值的处理方法
2.3.2噪声数据的处理方法
2.3.3冗余数据的处理方法
2.3.4数据格式与内容的处理方法
2.4数据清洗中的统计学基础
2.5实训1找出离群点
2.6实训2找出统计对象
2.7实训3找出数据清洗的步骤
2.8实训4找出异常数据
2.9小结
习题2
第3章文件类型
3.1文件格式
3.1.1文件格式概述
3.1.2Windows中常见的文件格式
3.2数据类型与字符编码
3.2.1数据类型概述
3.2.2字符编码
3.2.3用Python读取文件
3.2.4数据转换
3.3数据转换的实现
3.3.1用Python生成与读取CSV文件
3.3.2用Python读取与转换JSON文件
3.4实训1将XML文件转换为JSON文件
3.5实训2将JSON文件转换为CSV文件
3.6小结
习题3
第4章数据采集与抽取
4.1数据采集概述
4.1.1了解数据采集
4.1.2日志数据采集与处理的常见方法
4.1.3数据采集平台
4.1.4数据采集工具
4.2网页数据采集与实现
4.2.1网络爬虫概述
4.2.2网页数据采集的实现
4.3数据抽取
4.3.1数据抽取概述
4.3.2文本数据抽取
4.3.3网页数据抽取
4.4实训1使用Kettle抽取本地XML文件
4.5实训2使用Kettle抽取CSV数据并输出为文本文件
4.6小结
习题4
第5章Excel数据清洗与转换
5.1Excel数据清洗概述
5.1.1Excel简介
5.1.2Excel数据清洗与转换方法
5.2Excel数据清洗与转换的实现
5.2.1常用数据分析函数介绍
5.2.2删除重复行
5.2.3文本查找和替换
5.2.4数据替换
5.2.5字符串截取
5.2.6字母大小写转换
5.2.7删除空格和非打印字符
5.2.8数字和数字符号的转换
5.2.9日期和时间处理
5.2.10合并和拆分列
5.2.11数据的转置
5.2.12数据查询和引用
5.3实训1清洗简单数据
5.4实训2清洗复杂数据
5.5小结
习题5
第6章ETL数据清洗与转换
6.1数据仓库与ETL
6.1.1数据仓库
6.1.2ETL概述
6.2Kettle数据清洗与转换基础
6.2.1Kettle数据清洗
6.2.2Kettle数据转换
6.3Kettle数据仓库高级应用
6.4实训1在Kettle中识别流的最后一行并写入日志
6.5实训2在Kettle中用正则表达式清洗数据
6.6实训3使用Kettle过滤数据表
6.7实训4使用Kettle生成随机数并相加
6.8小结
习题6
第7章Python数据清洗
7.1Python数据清洗基础
7.1.1Python语言基础
7.1.2Python数据清洗所用库
7.2数据读写、选择、整理和描述
7.2.1从CSV文件读取数据
7.2.2写入数据到CSV文件
7.2.3数据整理和描述
7.3数据分组、分割、合并和变形
7.3.1数据分组
7.3.2数据分割
7.3.3数据合并
7.3.4数据变形
7.4缺失值、异常值和重复值处理
7.4.1缺失值处理
7.4.2异常值检测和过滤
7.4.3移除重复数据
7.5时间序列处理
7.5.1 Python的日期与时间工具
7.5.2Pandas时间序列数据结构
7.6 字符串处理
7.6.1 Python字符串方法列表
7.6.2Python正则表达式
7.6.3Pandas的字符串方法
7.7实训1清洗企业员工信息
7.8实训2清洗在校生饮酒消费数据
7.9小结
习题7
第8章R语言数据清洗
8.1R语言简介
8.2R语言基础
8.2.1R语言运算符号
8.2.2R语言数据类型
8.3R语言data.table数据包
8.3.1data.table数据包介绍
8.3.2创建data.table对象
|
內容試閱:
|
前言
大数据是现代社会高科技发展的产物,相对于传统的数据分析,大数据是海量数据的集合,它以采集、整理、存储、挖掘、共享、分析、应用、清洗为核心,正广泛地应用在经济、军事、金融、环境保护、通信等各个行业。在信息时代,数据即是资源。数据可靠无误才能准确地反映现实状况,有效地支持组织决策。但是,现实世界中的“脏”数据无处不在,数据不正确或者不一致会严重影响数据分析的结果,从而产生消极作用,因此系统地学习大数据清洗的知识十分有必要。
《数据清洗》以理论和实践操作相结合的方式深入地讲解了数据清洗技术的基本知识和实现,在内容设计上既有适合课堂教学的理论讲解部分,包括详细的理论与典型的案例;又有大量的实训环节,双管齐下,极大地激发了学生在课堂上的学习积极性与主动创造性,让学生在课堂上跟上老师的思维,从而学到更多有用的知识和技能。
《数据清洗》共有8章,分别讲述了数据清洗基础、数据清洗方法、文件类型、数据采集与抽取、Excel数据清洗与转换、ETL数据清洗与转换、Python数据清洗、R语言数据清洗。
《数据清洗》特色如下:
(1)采用“理实一体化”教学方式,既有理论讲解又有让学生独立思考和上机操作的内容。
(2)配有丰富的教学资源,包括重难点微课视频、教学课件、源代码和数据集、习题答案等。
(3)紧跟时代潮流,注重技术更新,涉及当前最新的大数据清洗知识及开源库与开源工具的使用。
(4)作者都具有多年的教学经验,能够把握数据清洗教学中的重难点,激发学生的学习热情。
《数据清洗》可作为高职高专院校大数据技术与应用、软件技术、信息管理、计算机网络等专业的专业课教材,也可作为大数据爱好者的参考书。
《数据清洗》建议学时为60学时,具体分配如表所示:
章建议学时
第1章 数据清洗基础4
第2章 数据清洗方法4
第3章 文件类型4
第4章 数据采集与抽取8
第5章 Excel数据清洗与转换8
第6章 ETL数据清洗与转换12
第7章 Python数据清洗16
第8章 R语言数据清洗4
《数据清洗》由黄源和涂旭东担任主编,陈继和吴文灵参与编写。其中,黄源编写了第3章、第4章、第6章;涂旭东编写了第5章、第7章、第8章;陈继和黄源共同编写了第1章;吴文灵和黄源共同编写了第2章。全书由黄源负责统稿工作。
《数据清洗》是校企合作共同编写的结果,在编写过程中得到了重庆翰海睿智大数据科技股份有限公司的大力支持,在此表示感谢。
在编写过程中,我们参阅了大量的相关资料,在此一并表示感谢。
由于编者水平有限,书中难免出现疏漏,衷心希望广大读者批评指正,来信可发送到作者电子邮箱:2103069667@qq.com。
编者
|
|