新書推薦:
《
超加工人群:为什么有些食物让人一吃就停不下来
》
售價:HK$
99.7
《
历史的教训(浓缩《文明的故事》精华,总结历史教训的独特见解)
》
售價:HK$
62.7
《
不在场证明谜案(超绝CP陷入冤案!日本文坛超新星推理作家——辻堂梦代表作首次引进!)
》
售價:HK$
58.2
《
明式家具三十年经眼录
》
售價:HK$
524.2
《
敦煌写本文献学(增订本)
》
售價:HK$
221.8
《
耕读史
》
售價:HK$
109.8
《
地理计算与R语言 [英] 罗宾·洛夫莱斯 [德]雅纳·蒙乔 [波兰] 雅库布·诺沃萨德
》
售價:HK$
121.0
《
沈括的知识世界:一种闻见主义的实践(中华学术译丛)
》
售價:HK$
87.4
|
內容簡介: |
本书由认识篇、技术篇和案例篇三部分组成,以商业领域中的问题为背景,主要讲解数据挖掘技术的应用。认识篇介绍数据挖掘的各种技术和数据挖掘建模方法,可使读者了解数据挖掘技术在商业领域中的应用概貌;技术篇介绍数据挖掘中的聚类分析、分类分析、关联规则分析、离群点检测、回归分析等方法;案例篇介绍实际领域应用较多的RFM分析、社会网络分析和文本挖掘,展示数据挖掘在不同领域中的应用案例,使读者理解如何应用数据挖掘技术解决商业领域中的问题。 本书可作为经济、管理类等相关专业学生学习数据挖掘技术的教材或参考书,也可作为计算机相关专业学生学习数据挖掘技术的参考书,还可作为企事业单位管理者、数据分析人员、市场营销人员、研究与开发人员的参考资料。
|
關於作者: |
蒋盛益,教授、博士,硕士生导师;广东省"千百十"工程省级培养对象,广东外语外贸大学教学名师。中国计算机学会高级会员,中国计算机学会中文信息技术专委会委员,中国中文信息学会计算语言学专业委员会委员、社会媒体处理专委会委员,人工智能学会机器学习专委会委员,广东省计算机学会常务理事;广州市计算机学会常务理事;第十、十一届广东省政协委员。先后在湖南师范大学、中南工业大学、华中科技大学毕业,分别获理学学士学位、理学硕士学位、工学博士学位。目前重点研究方向是利用自然语言处理、社会网络分析技术来处理网络新闻和社交媒体中的数据,包括新闻观点自动提取、对特定事件的立场(支持还是反对)分析、舆情传播模式研究、用户影响力分析等。应用背景包括国内外舆情分析、海上丝绸之路的情报分析。
|
目錄:
|
目录
上篇 认识篇
第1章 绪论 3
1.1 引例 3
1.2 数据挖掘简介 5
1.2.1 数据挖掘技术的使用背景 5
1.2.2 数据挖掘的概念 7
1.2.3 数据挖掘任务 7
1.2.4 数据挖掘过程 9
1.2.5 数据挖掘技术的前景 9
1.2.6 数据挖掘十大经典算法 11
1.3 数据挖掘在商业领域中的应用 12
1.3.1 客户关系管理 13
1.3.2 市场营销 15
1.3.3 个性化推荐与个性化服务 17
1.3.4 信用评估与欺诈检测 19
1.3.5 供应链库存管理中的需求预测 21
1.3.6 人力资源管理 22
1.4 数据挖掘与隐私保护 23
1.5 数据挖掘工具及其选择 25
本章小结 25
习题1 26
案例分析:聚类城镇 26
第2章 数据挖掘建模方法 28
2.1 数据挖掘建模概述 28
2.2 业务理解 31
2.3 数据理解 31
2.4 数据准备 32
2.5 建模 35
2.5.1 成功建立预测模型的注意事项 35
2.5.2 如何建立有效的预测模型 37
2.6 评估 39
2.7 部署 40
2.8 辛普森悖论 41
本章小结 42
习题2 43
案例分析 43
中篇 技术篇
第3章 数据准备 49
3.1 数据探索 50
3.1.1 描述性统计分析 51
3.1.2 数据可视化 54
3.2 数据清理 55
3.3 数据集成 58
3.4 数据变换 59
3.5 数据归约 64
3.6 Clementine简介 67
3.6.1 Clementine数据流操作 68
3.6.2 输入、输出节点 71
3.6.3 数据可视化节点 78
3.6.4 数据预处理节点 82
3.7 综合案例:电信客户通话模式分析 86
本章小结 92
习题3 92
案例分析 93
第4章 聚类分析 95
4.1 聚类分析概述 95
4.2 相似性度量 96
4.2.1 数据及数据类型 96
4.2.2 属性之间的相似性度量 98
4.2.3 对象之间的相似性度量 99
4.3 k-Means算法及其改进 104
4.3.1 k -Means算法 104
4.3.2 k-Means算法的拓展 106
4.4 DBSCAN聚类算法 112
4.5 一趟聚类算法 115
4.5.1 算法描述 115
4.5.2 聚类阈值的选择策略 115
4.5.3 一趟聚类算法的应用 117
4.6 层次聚类算法 118
4.6.1 概述 118
4.6.2 二分k -Means算法 119
4.6.3 BIRCH算法 119
4.6.4 两步聚类算法 121
4.7 SOM算法 123
4.7.1 SOM算法中网络的拓扑结构 124
4.7.2 SOM算法的聚类原理 125
4.8 聚类算法评价 126
4.8.1 有监督度量 126
4.8.2 无监督度量 127
4.9 Clementine中相关节点的介绍 128
4.9.1 k -Means节点 128
4.9.2 两步节点 130
4.9.3 Kohonen节点 130
4.10 综合案例:超市客户细分 132
本章小结 134
习题4 135
案例分析 135
第5章 分类分析 137
5.1 分类概述 138
5.2 决策树分类方法 138
5.2.1 决策树的基本概念 138
5.2.2 决策树的构建 140
5.2.3 Hunt算法 144
5.2.4 C4.5分类算法 145
5.2.5 CART算法 148
5.2.6 C4.5与CART算法的主要区别 156
5.2.7 决策树分类算法的特点 156
5.3 贝叶斯分类方法 156
5.3.1 贝叶斯定理 156
5.3.2 朴素贝叶斯分类算法 157
5.3.3 零条件概率问题的处理 158
5.3.4 朴素贝叶斯算法的优缺点 159
5.3.5 贝叶斯信念网络 161
5.4 KNN 162
5.4.1 最近邻分类方法的基本概念 163
5.4.2 KNN算法的优缺点 163
5.4.3 KNN算法的扩展 163
5.5 集成分类方法 164
5.5.1 集成分类方法的过程描述 164
5.5.2 构建集成分类器的方法 165
5.5.3 随机森林 166
5.5.4 集成分类方法的优缺点 168
5.6 分类方法评价 168
5.6.1 分类模型性能评价指标 168
5.6.2 分类模型性能评价应注意的点 169
5.6.3 评估分类模型性能的方法 170
5.7 Clementine中相关节点的介绍 171
5.7.1 C5.0节点 171
5.7.2 CRT节点 173
5.7.3 贝叶斯节点 174
5.7.4 集成节点 177
5.7.5 分析节点 177
5.7.6 评估节点 179
5.8 综合案例 183
5.8.1 案例5-1:银行客户信用风险评估 183
5.8.2 案例5-2:离职员工预测 185
本章小结 188
习题5 188
案例分析 190
第6章 关联规则分析 191
6.1 关联规则分析概述 191
6.2 关联规则分析基础 192
6.2.1 基本概念 192
6.2.2 基础分析方法 193
6.3 Apriori算法 195
6.3.1 Apriori性质 195
6.3.2 产生频繁项集 196
6.3.3 频繁项集构造示例 197
6.3.4 产生关联规则 198
6.3.5 规则的评估标准 201
6.3.6 Apriori算法评价 203
6.4 FP-Growth算法 203
6.4.1 FP-Tree表示法 204
6.4.2 构建FP-Tree 204
6.4.3 发现频繁项集 207
6.5 关联规则扩展 208
6.5.1 关联规则分类 208
6.5.2 多层次关联规则 209
6.5.3 多维关联规则 210
6.5.4 定量关联规则 211
6.5.5 基于约束的关联规则 211
6.5.6 序列模式挖掘 211
6.6 Clementine中Apriori节点的介绍 212
6.7 综合案例 213
6.7.1 案例6-1:超市购物篮分析 213
6.7.2 案例6-2:移动业务关联分析 218
本章小结 225
习题6 226
案例分析 227
第7章 离群点检测 229
7.1 离群点概述 229
7.2 基于距离的离群点检测方法 231
7.3 基于相对密度的离群点检测方法 232
7.4 基于聚类的离群点检测方法 237
7.4.1 基于对象的离群因子检测方法 238
7.4.2 基于簇的离群因子检测方法 240
7.4.3 基于聚类的动态数据离群点检测 242
7.5 离群点检测方法的评估 243
7.6 Clementine中的异常节点 243
7.7 综合案例:信用卡欺诈检测 245
本章小结 246
习题7 246
案例分析 247
第8章 回归分析 248
8.1 回归分析概述 248
8.2 线性回归模型 249
8.2.1 多元线性回归模型的表示 249
8.2.2 多元线性回归模型的检验 250
8.3 非线性回归 252
8.4 逻辑回归 255
8.4.1 二元逻辑回归模型 255
8.4.2 逻辑回归模型的系数估计 256
8.4.3 逻辑回归模型系数的解释 257
8.4.4 显著性检验 257
8.4.5 回归方程的拟合优度检验 258
8.5 Clementine中相关节点介绍 263
8.5.1 线性回归节点 263
8.5.2 逻辑回归节点 264
8.6 综合案例:我国私人汽车拥有量的非线性回归 265
本章小结 268
习题8 268
案例分析 270
下篇 案例篇
第9章 RFM分析 275
9.1 RFM分析的基本原理 275
9.2 RFM模型的应用场景 276
9.3 Clementine中相关节点介绍 277
9.3.1 RFM汇总节点 277
9.3.2 RFM分析节点 278
9.4 综合案例 280
9.4.1 案例9-1:识别促销的目标客户 280
9.4.2 案例9-2:Charles读书俱乐部目录销售 285
9.4.3 案例9-3:销售数据分析 290
本章小结 294
第10章 社会网络分析 295
10.1 图论基础 295
10.2 社会网络分析概述 296
10.2.1 社会网络分析相关概念 297
10.2.2 中心性 297
10.2.3 权威性 299
10.2.4 网络密度 299
10.3 社区检测 300
10.3.1 社区检测方法简介 300
10.3.2 社区检测质量评价 301
10.4 社会网络分析软件 302
10.4.1 社会网络分析软件概述 302
10.4.2 Gephi简介 303
10.5 综合案例 306
10.5.1 案例10-1:基于社区检测的通信业客户细分 306
10.5.2 案例10-2:一带一路沿线国家间贸易数据分析 311
本章小结 318
第11章 文本挖掘 319
11.1 分词技术 319
11.1.1 分词挑战 319
11.1.2 分词方法 320
11.1.3 常见分词工具 321
11.2 文本向量化 322
11.2.1 向量空间模型 322
11.2.2 文本特征选择 323
11.3 文本聚类 324
11.3.1 文本相似度计算 324
11.3.2 文本聚类过程 325
11.4 文本分类 325
11.4.1 文本分类的概念 325
11.4.2 常用文本分类算法 326
11.4.3 常用基准语料与模型评估标准 327
11.5 文本情感分析 328
11.5.1 文本情感分析的概念 329
11.5.2 文本情感分析技术 329
11.5.3 文本情感分析的应用 330
11.6 相关软件 331
11.6.1 数据采集工具八爪鱼 331
11.6.2 可视化内容挖掘软件ROST CM6 336
11.7 综合案例:基于微博的用户特征识别 337
本章小结 342
第12章 数据挖掘在客户关系管理中的应用 343
12.1 客户关系管理 343
12.1.1 客户关系管理概述 343
12.1.2 客户价值分析 344
12.1.3 客户细分分析 345
12.1.4 市场营销 345
12.1.5 客户关系管理的实施流程 346
12.2 客户生命周期分析 347
12.3 综合案例 350
12.3.1 案例12-1:旅游公司目录销售 350
12.3.2 案例12-2:电信客户细分与流失分析 354
12.3.3 案例12-3:航空公司客户价值分析 359
本章小结 365
第13章 数据挖掘在金融领域的应用 366
13.1 金融科技概述 366
13.2 数据挖掘在银行业中的应用概述 369
13.3 综合案例:信用风险分析 372
本章小结 377
第14章 数据挖掘在财务风险分析和预警中的应用 378
14.1 数据挖掘在财务风险管理中的应用概述 378
14.2 综合案例 380
14.2.1 案例14-1:上市公司财务报表舞弊识别 380
14.2.2 案例14-2:上市公司财务困境预警 382
本章小结 386
第15章 数据挖掘在电子商务中的应用 387
15.1 数据挖掘在电子商务中的应用概述 387
15.2 主要应用领域 388
15.2.1 网络客户关系管理 388
15.2.2 网站设计
|
|