新書推薦:
《
中国常见植物野外识别手册:青海册
》
售價:HK$
78.2
《
三星堆对话古遗址(从三星堆出发,横跨黄河流域,长江流域,对话11处古遗址,探源多元一体的中华文明)
》
售價:HK$
89.7
《
迷人的化学(迷人的科学丛书)
》
售價:HK$
147.2
《
宋代冠服图志(详尽展示宋代各类冠服 精美插图 考据严谨 细节丰富)
》
售價:HK$
87.4
《
形似神异:什么是中日传统政治文化的结构性差异
》
售價:HK$
55.8
《
养育不好惹的小孩
》
售價:HK$
79.4
《
加加美高浩的手部绘画技法 II
》
售價:HK$
91.8
《
卡特里娜(“同一颗星球”丛书)
》
售價:HK$
89.7
|
編輯推薦: |
数据挖掘出现于20 世纪80 年代后期,随着信息化技术的持续发展,它不断汲取统计学、机器学习、数据库技术、人工智能、模式识别和数据可视化等多学科领域的知识,无可争议地成为当今利用大数据分析获取知识的核心利器。本教材是浙江省十三五优势专业经济统计学、浙江省一流学科统计学、浙江省优势特色学科统计学的建设成果之一,具有以下显著特点:
1 重视数据挖掘项目实现的整个流程,除了包含数据挖掘的经典理论与方法,还详细介绍了数据挖掘工具、挖掘的数据类型和存储环境、大数据平台及数据预处理方法。
2 重视数据挖掘理论和方法的基本思想,在不失严谨的前提下,略过了一些复杂程度高,但又不影响理解的数学推导,将各个知识点言简意赅地阐述透彻。
3 重视实际案例应用及实现,每类方法结合多个案例,以运用恰当的方法解决实际问题为导向,以培养分析问题能力为重点,详细介绍IBM SPSS Modeler 和R 软件的实现过程。
|
內容簡介: |
《数据挖掘方法与应用》以应用为导向介绍数据挖掘的相关工具、理论和方法,包括数据挖掘概述、数据挖掘工具、数据与数据平台、数据预处理、关联分析、决策树、贝叶斯分类和神经网络。通过循序渐进地讲解数据挖掘可使用的工具、数据存储及分析环境、原始数据可能存在的问题及相应的预处理方法、数据挖掘经典算法等相关知识,使读者对数据挖掘有整体的认识和了解。此外,《数据挖掘方法与应用》以解决问题为目的,结合实例阐述了使用IBM SPSS Modeler和R软件进行数据挖掘的方法与步骤,便于读者更好地理解和掌握。 《数据挖掘方法与应用》可作为统计学、大数据等相关专业高年级本科生及硕士研究生数据挖掘课程的教材,也可作为其他数据挖掘爱好者的参考用书。
|
目錄:
|
第1章 数据挖掘概述 1
1.1 数据挖掘的产生与发展 1
1.1.1 数据挖掘概念的提出 2
1.1.2 数据挖掘系统的发展 3
1.1.3 当前热点和未来趋势 5
1.2 数据挖掘过程 10
1.2.1 Fayyad过程模型 10
1.2.2 CRISP-DM过程模型 11
1.3 数据挖掘功能与使用技术 21
1.3.1 数据挖掘功能 21
1.3.2 数据挖掘使用技术 22
1.4 数据挖掘应用 26
1.4.1 金融领域的数据挖掘 26
1.4.2 电信领域的数据挖掘 26
1.4.3 零售与电子商务领域的数据挖掘 27
1.4.4 政府政务领域的数据挖掘 27
1.4.5 医疗领域的数据挖掘 28
1.4.6 科学领域的数据挖掘 28
1.5 练习与拓展 28
第2章 数据挖掘工具 30
2.1 Weka 30
2.1.1 Weka简述 30
2.1.2 Weka运行界面 31
2.2 IBM SPSS Modeler 34
2.2.1 IBM SPSS Modeler简述 34
2.2.2 IBM SPSS Modeler主界面及功能 35
2.3 R语言 41
2.3.1 R语言简述 41
2.3.2 RStudio 42
2.3.3 R语言与数据挖掘 42
2.4 Python语言 45
2.4.1 Python语言简述 45
2.4.2 Python与数据分析 46
2.4.3 Anaconda 46
2.5 练习与拓展 50
第3章 数据与数据平台 51
3.1 数据类型 51
3.1.1 数据形态与数据类型 51
3.1.2 数据环境与数据类型 54
3.2 关系型数据库 55
3.2.1 关系型数据库概述 55
3.2.2 关系型数据库管理系统 56
3.3 NoSQL数据库 57
3.3.1 键值数据库 57
3.3.2 文档数据库 58
3.3.3 列族数据库 60
3.3.4 图数据库 61
3.4 数据仓库与大数据平台 63
3.4.1 数据仓库 63
3.4.2 大数据平台 68
3.5 练习与拓展 74
第4章 数据预处理 75
4.1 数据预处理概述 75
4.1.1 原始数据中存在的问题 75
4.1.2 数据预处理的主要任务 77
4.2 数据清洗 77
4.2.1 缺失数据处理 77
4.2.2 异常数据处理 78
4.3 数据集成 80
4.3.1 模式匹配及数值一致化 80
4.3.2 删除冗余数据 81
4.4 数据变换 82
4.4.1 定性数据数值化 82
4.4.2 定量数据离散化和规范化 83
4.4.3 不平衡数据处理 84
4.5 数据归约 85
4.5.1 属性的归约 85
4.5.2 记录的归约 87
4.5.3 数值的归约 88
4.6 练习与拓展 89
第5章 关联分析 90
5.1 关联分析概述 90
5.1.1 关联分析基本概念 91
5.1.2 关联规则挖掘的基本过程 93
5.2 Apriori算法 94
5.2.1 Apriori性质 94
5.2.2 Apriori算法的频繁项集产生 95
5.3 强关联规则的悖论 99
5.3.1 强关联规则不一定是有趣的规则 99
5.3.2 基于提升度过滤无趣的强关联规则 100
5.3.3 基于支持度、置信度及提升度的关联规则发现 100
5.4 基于IBM SPSS Modeler的应用 103
5.4.1 事实表数据的应用示例 103
5.4.2 事务表数据的应用示例 113
5.5 基于R语言的应用 123
5.5.1 数据初探 123
5.5.2 可视化交易数据 125
5.5.3 挖掘关联规则 127
5.5.4 可视化关联规则 130
5.6 练习与拓展 134
第6章 决策树 136
6.1 决策树概述 136
6.1.1 决策树分析相关概念 137
6.1.2 决策树分析核心问题 138
6.2 ID3算法 138
6.2.1 信息论的基本概念 138
6.2.2 ID3算法基本原理 139
6.2.3 使用ID3算法建立决策树 141
6.3 C5.0算法 143
6.3.1 C5.0算法的决策树生长 144
6.3.2 C5.0算法的决策树修剪 149
6.4 基于IBM SPSS Modeler的应用 151
6.4.1 数据读取与审核 152
6.4.2 探索性分析 153
6.4.3 数据预处理 158
6.4.4 决策树模型构建与评估:基于C5.0算法 163
6.4.5 预测结果 170
6.5 基于R语言的应用 171
6.5.1 数据探索 172
6.5.2 数据分区 177
6.5.3 模型训练与评估 178
6.5.4 使用boosting和代价矩阵调整模型 181
6.6 练习与拓展 184
第7章 贝叶斯分类 185
7.1 贝叶斯分类概述 185
7.1.1 贝叶斯定理 186
7.1.2 贝叶斯信念网络 186
7.2 朴素贝叶斯分类 188
7.2.1 朴素贝叶斯分类原理 188
7.2.2 朴素贝叶斯分类计算示例 191
7.2.3 零概率问题:拉普拉斯平滑 193
7.3 TAN贝叶斯分类 194
7.3.1 TAN贝叶斯网络结构 194
7.3.2 TAN贝叶斯分类过程 195
7.4 基于IBM SPSS Modeler的应用 196
7.4.1 数据读取与审核 198
7.4.2 探索性分析 199
7.4.3 数据预处理 208
7.4.4 TAN贝叶斯分类模型构建与评估 210
7.5 基于R语言的应用 214
7.5.1 数据探索 214
7.5.2 文本数据预处理 215
7.5.3 划分数据集 219
7.5.4 词云分析 221
7.5.5 模型训练与评估 223
7.6 练习与拓展 225
第8章 神经网络 226
8.1 神经网络概述 226
8.1.1 生物神经元与人工神经元 226
8.1.2 激活函数 227
8.1.3 神经网络的拓扑结构 230
8.2 BP神经网络 232
8.2.1 BP神经网络的学习过程 232
8.2.2 BP算法描述 237
8.2.3 前馈神经网络计算示例 238
8.3 卷积神经网络 240
8.3.1 卷积层 240
8.3.2 激活层 243
8.3.3 池化层 244
8.3.4 全连接层 244
8.4 基于IBM SPSS Modeler的应用 245
8.4.1 数据读取 246
8.4.2 数据审核节点预处理 247
8.4.3 探索性分析 250
8.4.4 分区与平衡 251
8.4.5 模型构建与评价 252
8.5 基于R语言的应用 260
8.5.1 数据初探 260
8.5.2 数据转换与分区 263
8.5.3 模型构建与评价 263
8.6 练习与拓展 268
参考文献 270
|
內容試閱:
|
数据挖掘出现于20世纪80年代后期,随着信息化技术的持续发展,它不断汲取统计学、机器学习、数据库技术、人工智能、模式识别和数据可视化等多学科领域的知识,无可争议地成为当今利用大数据分析获取知识的核心利器。
本教材是浙江省十三五优势专业经济统计学、浙江省一流学科统计学、浙江省优势特色学科统计学的建设成果之一,具有以下显著特点:
1 重视数据挖掘项目实现的整个流程,除了包含数据挖掘的经典理论与方法,还详细介绍了数据挖掘工具、挖掘的数据类型和存储环境、大数据平台及数据预处理方法。
2 重视数据挖掘理论和方法的基本思想,在不失严谨的前提下,略过了一些复杂程度高,但又不影响理解的数学推导,将各个知识点言简意赅地阐述透彻。
3 重视实际案例应用及实现,每类方法结合多个案例,以运用恰当的方法解决实际问题为导向,以培养分析问题能力为重点,详细介绍IBM SPSS Modeler和R软件的实现过程。
本教材共分为8章:第1章为数据挖掘概述,主要介绍数据挖掘的发展历程、相关技术与发展趋势等;第2~3章主要介绍数据挖掘工具、数据类型及数据平台;第4章介绍数据预处理相关技术;第5~8章介绍了各种数据挖掘经典算法原理、案例应用及实现。
本教材主要针对统计学、大数据相关专业的高年级本科生和硕士研究生编写,以学生深入理解并掌握数据挖掘的基本方法、了解相关的应用环境、熟练运用相关软件进行数据挖掘为目标,也可作为其他各专业读者学习数据挖掘方法与应用的教材或参考书。
本教材教学资源丰富,除了教学课件之外,还提供了每章的案例数据,读者可以通过http:www.tupwk.com.cn下载使用。
本教材由浙江工商大学徐雪琪副教授结合十多年的教学工作经验编写而成。结合笔者的教学实践,以48学时为例一学期16周,每周3学时,本教材的理论教学内容可安排33学时,第5~8章的应用部分可安排15学时实验教学。在编写过程中,笔者参考了国内外数据挖掘领域许多学者的研究成果,在此深表谢意!
笔者虽已尽心竭力,但限于水平和时间仓促,书中谬误之处在所难免,敬请读者批评指正。
徐雪琪
2020年4月
|
|