新書推薦:
《
6S精益管理实战(精装版)
》
售價:HK$
100.6
《
异域回声——晚近海外汉学之文史互动研究
》
售價:HK$
109.8
《
世界文明中的作物迁徙:聚焦亚洲、中东和南美洲被忽视的本土农业文明
》
售價:HK$
99.7
《
无端欢喜
》
售價:HK$
76.2
《
股票大作手操盘术
》
售價:HK$
53.8
《
何以中国·何谓唐代:东欧亚帝国的兴亡与转型
》
售價:HK$
87.4
《
一间只属于自己的房间 女性主义先锋伍尔夫代表作 女性精神独立与经济独立的象征,做自己,比任何事都更重要
》
售價:HK$
44.6
《
泉舆日志 幻想世界宝石生物图鉴
》
售價:HK$
134.2
|
編輯推薦: |
《SPSS Modeler Weka数据挖掘从入门到实战》采用理论与软件实操双向并行的策略。
在理论上,尽量用例子来说明数据挖掘算法背后的理论及意义,避免过度艰涩的数学公式及推导,以求读者能用*简单的方式掌握理论精髓。
在软件实操上,则以各领域的实用案例为基础,逐步将软件的功能引出,以求读者能了解软件各部功能的使用技巧。
|
內容簡介: |
内 容 简 介本书是一本面向商业数据挖掘建模分析人员的教材,从具体的商业数据分析案例入手,帮助读者掌握数据挖掘的目的、方法、工具与分析步骤。本书所采用的分析工具为目前颇受好评的IBM SPSS Modeler及开源软件Weka。IBM SPSS Modeler有很好的用户接口,也有不错的分析功能,但缺乏比较前沿的分析模块,以及很难与现有的信息系统结合,而Weka恰能弥补其缺憾。同时,这两个软件都不需要编程,适合初学者。本书具体内容由四位活跃在数据挖掘教学和项目开发一线的人员完成,内容侧重软件的实际操作。力图将复杂的技术以浅显的方式进行解释,尽量避免涉及过多的数学内容。
|
關於作者: |
铭传大学资讯工程学系教授兼系主任暨研究所所长铭传大学大数据研究中心主任中华资料采矿协会理事浙江大学城市学院客座教授云南财经大学信息学院客座教授厦门大学数据挖掘中心顾问中国人民大学数据挖掘中心顾问
|
目錄:
|
第1 篇 理论篇
第1 章 数据挖掘简介 ................................................................................... 1
1.1 数据挖掘的起源、定义及目标 ....................................................................................... 2
1.2 数据挖掘的发展历程 ....................................................................................................... 2
1.3 SPSS Modeler 和Weka 基础操作 .................................................................................... 4
1.3.1 SPSS Modeler 软件简介 ....................................................................................... 4
1.3.2 建立一个SPSS Modeler 项目 .............................................................................. 5
1.3.3 Weka 软件环境简介 ............................................................................................. 8
1.3.4 Weka 简单操作实例 ............................................................................................. 9
第2 章 数据挖掘方法论 .............................................................................. 15
2.1 数据挖掘方法论 ............................................................................................................. 16
2.1.1 CRISP-DM .......................................................................................................... 16
2.1.2 SEMMA .............................................................................................................. 16
2.2 数据库中的知识挖掘步骤 ............................................................................................. 17
2.2.1 字段选择 ............................................................................................................. 17
2.2.2 数据清洗 ............................................................................................................. 18
2.2.3 字段扩充 ............................................................................................................. 18
2.2.4 数据编码 ............................................................................................................. 19
2.2.5 数据挖掘 ............................................................................................................. 20
2.2.6 结果呈现 ............................................................................................................. 21
2.3 案例:运用SPSS Modeler 和Weka 做客户的信用风险评分模型 ............................. 22
2.3.1 案例说明 ............................................................................................................. 22
2.3.2 案例实操 ............................................................................................................. 23
2.3.3 运用SPSS Modeler 进行初步的数据挖掘 ........................................................ 28
2.3.4 运用Weka 进行数据汇入 .................................................................................. 34
2.3.5 Weka 自有数据存储格式arff 简介 ................................................................... 36
第3 章 基本的数据挖掘技术 ...................................................................... 38
3.1 描述性统计 ..................................................................................................................... 39
3.1.1 案例:通过数据判断客户是否需要新增电话线路 ......................................... 39
3.1.2 案例:运用描述性统计分析杂志社的客户特征 ............................................. 40
3.2 可视化技术 ..................................................................................................................... 42
3.3 KNN 原理及实例 ........................................................................................................... 44
3.3.1 KNN(K 最近邻)算法 ..................................................................................... 44
3.3.2 使用KNN 算法计算距离 .................................................................................. 45
3.3.3 案例:使用KNN 算法向用户推荐电影 ........................................................... 49
3.4 案例:运用Weka 的KNN 算法对诊断结果进行预测 ..................................................... 52
3.4.1 案例说明 ............................................................................................................. 52
3.4.2 运用Weka 中的IBk 模型进行预测 .................................................................. 53
3.5 案例:运用SPSS Modeler 的KNN 算法预测客户是否接受人寿保险推销 ............. 58
3.5.1 案例说明 ............................................................................................................. 58
3.5.2 案例实操 ............................................................................................................. 59
第4 章 数据挖掘进阶技术 .......................................................................... 68
4.1 数据挖掘的功能分类 ..................................................................................................... 69
4.1.1 描述型数据挖掘(无监督数据挖掘) ............................................................. 69
4.1.2 预测型数据挖掘(有监督数据挖掘) ............................................................. 70
4.2 数据挖掘的绩效增益 ..................................................................................................... 72
4.2.1 数据挖掘模型评估指标:正确率、响应率、查全率、F 值 .......................... 72
4.2.2 数据挖掘模型评估指标:Gain Chart ................................................................ 74
4.2.3 数据挖掘模型评估指标:Lift Chart ................................................................. 75
4.2.4 数据挖掘模型评估指标:Profit Chart .............................................................. 76
4.3 数据挖掘网站 ................................................................................................................. 77
4.3.1 KDnuggets ........................................................................................................... 77
4.3.2 Kaggle ................................................................................................................. 80
4.4 案例:评估新产品的促销活动效果 ............................................................................. 82
4.4.1 案例说明 ............................................................................................................. 83
4.4.2 数据及字段描述 ................................................................................................. 83
4.4.3 效能评估方式 ..................................................................................................... 85
4.4.4 比赛结果排名 ..................................................................................................... 85
第2 篇 准备篇
第5 章 数据预处理 ..................................................................................... 87
5.1 字段选择 ......................................................................................................................... 88
5.1.1 数据整合 ............................................................................................................. 88
5.1.2 数据过滤 ............................................................................................................. 88
5.1.3 案例:运用SPSS Modeler 过滤数据 ................................................................ 89
5.2 数据清洗 ......................................................................................................................... 92
5.2.1 错误值的检测及处理 ......................................................................................... 92
5.2.2 案例:运用SPSS Modeler 进行错误值的检测及处理 .................................... 92
5.2.3 离群值的检测及处理 ......................................................................................... 96
5
|
內容試閱:
|
前 言
感谢您选择《SPSS Modeler Wake 数据挖掘从入门到实战》。本书内容源于李御玺教授的数据挖
掘相关课程讲义,讲义历经多次修改,逐渐适合作为数据挖掘实用教材,并在获得学员们的高度评
价后再被编辑成书。本书的另一位作者常国珍也长期活跃在数据挖掘的项目实施和培训中,2014 年
其与李教授相识,并与李教授对出版本书之事一拍即合。
读者对象
本书的撰写采取了算法与软件实操双向并行的策略。在理论上,本书尽量用例子来说明数据挖
掘算法背后的理论及意义,避免艰涩的数学公式,以求读者能用最简单的方式理解理论的精髓。在
软件实操上,本书以各领域的实用案例为基础,逐步地将软件的功能引出,以求读者能了解软件功
能的使用场景。有了坚实的理论基础及软件操作能力,再辅之以众多的实用案例,本书的读者就能
逐步进入多姿多彩的数据挖掘世界。本书是以读者第一次接触数据挖掘为前提来撰写的。读者若有
数据库、统计及计算机基础,则学习起来会较为轻松。
工具介绍
IBM SPSS Modeler 可谓商业数据挖掘领域的重型武器,其功能全面、算法安全可靠、追求执
行效率与操作上的简单易用,并被广泛运用于许多企业中。其缺点是缺乏前沿的分析模块及很难与
现有的信息系统结合,而开源软件Weka 恰能弥补其不足。Weka 简单好用,拥有许多前沿的分析模
块并易于与现有的信息系统整合。其缺点是在数据预处理部分,便利性不如IBM SPSS Modeler 简单、
易用。这两个软件对初入数据分析领域的读者而言是很好的入门工具。
阅读指南
本书分为15 章。第1 章介绍数据挖掘的起源及应用。同时说明如何建立一个SPSS Modeler 及
Weka 的项目。第2 章介绍数据挖掘的方法论CRIPS-DM。同时说明如何将数据汇入SPSS Modeler
及Weka 的项目中,并做初步的数据探索。第3 章介绍基本的数据挖掘技术。同时说明如何利用SPSS
Modeler 及Weka 建立KNN 模型并进行分类预测。第4 章介绍数据挖掘的进阶技术、数据挖掘技术
的绩效增益及两个重要的数据挖掘网站。第5 章详细介绍数据预处理技术,同时说明如何利用SPSS
Modeler,针对银行的信用风险评估数据,进行数据预处理。第6 章介绍如何有效地挖掘对项目有帮
助的关键变量。同时说明如何利用SPSS Modeler 及Weka,挖掘有效变量。第7 至15 章则为数据挖
掘模型的介绍。这些模型均为热门且应用最为广泛的模型。对于每个模型的介绍,先以实例说明其
理论,随后以实用的案例介绍如何在SPSS Modeler 及Weka 中操作,让每个读者充分了解每个模型
的实际运用效果。
如果时间允许,则读者可以采取通读本书内容并按照示例进行操作的方式,但是这样效率可能
不高。更高效的方法是结合工作中遇到的问题,先集中精力把书上的示例操练好,然后带入工作中
的实际数据实现同样的算法,最后修改部分设置,以满足工作中的特定需求。
本书特点
本书作为市场上为数不多的理论与软件实操相结合并面向商业数据挖掘的书籍,和其他统计软
件图书有很大的不同,本书结构新颖,案例贴近实际,讲解深入透彻。
场景式设置
本书从银行、电信、零售、医疗等行业中精心归纳、提炼出各类数据挖掘案例,方便读者搜寻
与实际工作相似的问题。
启发式描述
本书注重培养读者解决问题的思路,以最朴实的思维方式结合启发式的描述,帮助读者发现规
律、总结规律和运用规律,从而启发读者快速找出问题的解决方法。
售后服务
尽管作者们对书中的案例精益求精,但疏漏之处在所难免,如果发现书中的错误或某个案例有
更好的解决方案,则敬请与本书作者联系,作者邮箱为leeys@mail.mcu.edu.tw。
学习方法
只有对数据分析的流程熟悉了,才能实现从模仿到灵活运用。在产品质量管理方面,对流程的
掌控是成功的关键,在数据挖掘项目中,流程同样是重中之重。数据挖掘是一个先后衔接的过程,
一个步骤的失误会带来完全错误的结果。数据挖掘的流程大致包括抽样、数据清洗、数据转换、建
模和模型评估这几个步骤。如果在抽样中的取数逻辑不正确,就有可能使因果关系倒置,得到完全
相反的结论。数据转换方法如果选择不正确,模型就难以得到预期的结果。而且,数据挖掘是一个
反复试错的过程,每一步都要求有详细的记录和操作说明,否则分析人员很可能迷失方向。
学习数据挖掘最好的方法就是动手做一遍。本书语言通俗,但高度凝练,很少涉及公式,这会
让读者大意,如果读者不动手做一遍,则很难体会到书中表述的思想。本书提供了相应的演练数据,
也同时给出了相关方面的参考资料,供学员学习。
致谢
本丛书从策划到出版,张慧敏主编倾注了大量心血,经管之家的董事长赵坚毅先生提供了多方
面的支持,特在此表示衷心的感谢!
为保证丛书的质量,使其更贴近读者,我们邀请了北京大学的殷子涵进行试读和修改完善。感
谢各位预读员的辛勤、耐心与细致,使得本书能以更加完善的面目与各位读者见面。还要感谢刘莎
莎参与本岀的编写工作。
再次感谢您的支持!
作 者
|
|