新書推薦:
《
《全面与进步跨太平洋伙伴关系协定》国有企业条款研究
》
售價:HK$
98.6
《
银行业架构网络BIAN(全球数字化时代金融服务业框架)(数字化转型与创新管理丛书)
》
售價:HK$
98.6
《
金托邦:江湖中的沉重正义
》
售價:HK$
60.5
《
易经今解:释疑·解惑·见微
》
售價:HK$
88.5
《
东欧史(全二册)-“中间地带”的困境
》
售價:HK$
221.8
《
虚拟资本:金融怎样挪用我们的未来
》
售價:HK$
77.3
《
刻意练习不生气
》
售價:HK$
39.2
《
大宋理财:青苗法与王安石的金融帝国(全彩插图本)
》
售價:HK$
109.8
|
內容簡介: |
本书以数据挖掘项目的典型开发过程为线索,对数据挖掘的生命周期中的各个环节,以及其中所涉及的概念、方法、技术和过程模型进行了全面细致的介绍。对于数据挖掘核心部分的典型基础算法,通过细致的阐述、详尽的示例和充分的讨论,深入地展示了数据挖掘算法的内涵,以便读者认知、学习和掌握。
本书系统地介绍了数据挖掘原理、算法和应用的相关知识,内容覆盖数据挖掘的整个过程:数据采集、数据预处理、数据分类分析、数据聚类分析、数据关联分析和数据挖掘系统的应用等。在内容安排上通过数据挖掘的典型应用方法,将理论知识和工程技术应用有机地结合,浅显易懂且实践性强。
本书可以作为高等院校计算机科学与技术、信息管理、数据分析等专业的教科书,也可作为企业管理、信息分析人员的技术参考书籍。
本书配有电子课件,及与书中例题、作业题配套的数据素材,欢迎选用本书作教材的老师发邮件到jinacmp@163.com索取,或登录www.cmpedu.com注册下载。
|
目錄:
|
目录
前言
第1章绪论1
1.1信息爆炸与大数据1
1.2什么是数据挖掘5
1.3数据挖掘的任务6
1.4数据挖掘的应用7
1.5数据挖掘系统结构9
1.6数据挖掘面临的挑战9
1.7数据挖掘样例数据和相关资料10
思考与练习13
参考文献13
第2章数据挖掘的过程14
2.1数据分析能力14
2.2数据挖掘的过程16
2.3三阶段过程模型17
2.4SEMMA方法19
2.5CRISP-DM过程模型21
2.65A模型25
2.7模型融合26
本章小结26
思考与练习27
参考文献27
第3章数据准备28
3.1数据收集28
3.2数据抽样29
3.3数据集成32
3.4数据清理39
3.5数据归约43
3.6数据变换48
本章小结50
思考与练习51
参考文献51
第4章数据探索52
4.1数据探索的作用52
4.2数据可视化54
4.3数据统计分析70
4.4加载Excel插件78
本章小结79
思考与练习79
参考文献79
第5章关联分析81
5.1关联分析原理81
5.2由候选项集产生频繁项集84
5.3计算支持度计数94
5.4FP-Growth算法98
5.5产生频繁项集算法复杂度105
5.6生成规则106
5.7关联规则的评估111
本章小结116
思考与练习116
参考文献118
第6章分类预测119
6.1分类的原理119
6.2决策树分类122
6.3基于规则的分类器151
6.4贝叶斯分类器156
6.5人工神经网络173
6.6支持向量机186
6.7模型评估192
本章小结197
思考与练习197
参考文献198
第7章聚类分析199
7.1聚类的基本概念200
7.2K均值K-means聚类方法208
7.3K中心点K-medoids算法215
7.4层次聚类216
7.5DBSCAN聚类222
7.6聚类算法评估228
本章小结232
思考与练习232
参考文献233
第8章回归分析234
8.1回归分析的概念234
8.2回归算法235
8.3回归的评估与检验244
本章小结249
思考与练习249
参考文献251
第9章数据挖掘的工具252
9.1MATLAB252
9.2SPSS Modeler253
9.3SAS Enterprise Miner254
9.4WEKA255
9.5R256
本章小结256
参考文献257
第10章WEKA数据挖掘应用258
10.1WEKA简介258
10.2Explorer261
10.3Experimenter302
10.4KnowledgeFlow304
10.5WEKA API310
10.6WEKA的设置和使用311
本章小结313
思考与练习313
参考文献313
|
內容試閱:
|
前言
随着现代信息技术的飞速发展和现代管理理论的深化,社会对信息资源的开发和应用进入了一个新的时代。信息构造了知识,数据连接了万物,这给社会的经济、科技、管理、生产、文化和生活等各个方面都带来了深刻变革和发展。数据的采集和应用,推动着工业生产向着更为规范和精准的方向迈进,推动着城市管理变得更为智慧高效,推动着社会服务趋于更加精细和以人为本……数据的资源化转变,更进一步地促进了数据的生产和消费产业的发展,数据在人们的生活中正在发挥着不可或缺的作用,人类社会经过了农业社会、工业社会以及信息社会的持续发展,已经进入了一个新的历史阶段——数据社会。
显而易见,数据的价值体现在对数据的收集存储、积累组织、处理分析和挖掘应用上。由于数据的不断产生和积累,加之社会对数据应用的迫切要求,结合互联网技术和信息传播技术的快速进步,使数据的特性发生了巨大的变化,正向着数量volume大、种类variety多、速度velocity要求高和价值value密度低的方向发展,人们自觉或不自觉地进入了,或者说是被带入了大数据时代。
大数据时代的到来催生了一门新的学科——数据挖掘,其产生的根本目的是通过对数据处理、分析和应用的技术和方法的研究,充分挖掘和利用数据中所蕴含的价值,使其更好地为人类社会的发展和进步服务。学科的产生和发展,会最为显著地反映到科技和教育领域。社会对数据科学技术的企盼和对数据科学技术人才的渴求,在高等教育的专业设置和建设上得以直接体现。近几年来,各高等院校先后创建和开设了数据科学与大数据技术专业、智能科学与技术专业、人工智能专业、机器人工程专业和大数据管理与应用专业等与数据科学领域相互关联和相互融合的专业,在数据科学的科学研究和人才培养上迈出了一大步。
面对日益庞大的数据资源,以及社会发展对数据资源的依赖和推动,人们迫切需要强有力的手段、方法和工具来“挖掘”其中的有用信息,使数据资源的价值得以充分体现。数据挖掘就是针对这一需求而发展起来的一门汇集统计学、机器学习、数据库、人工智能等学科内容的新兴交叉学科。数据挖掘虽然是20世纪末刚刚兴起的数据智能分析技术,但在形成和发展过程中却表现出了强大的生命力,其所发挥的重要作用和产生的效益逐渐为人们所知,彰显出广阔的应用前景。
数据挖掘所涉及的内容非常广泛,已成为迅速发展并在信息社会中广泛应用的一门综合性的新兴学科。广大从事数据分析、数据应用和决策支持等领域的科研工作者和工程技术人员迫切需要了解和掌握这门技术。数据挖掘是多项数据学科和技术的融合交点,各高等院校中与数据科学相关的工科、理科,甚至是金融和医学等专业,纷纷开设以数据挖掘技术为核心的课程。同时,随着业界对数据挖掘技术重要性认识的深入,数据挖掘已逐渐成为众多学科和专业教育的一门重要课程。
数据挖掘技术的最为根本的作用,是通过一系列的管理和技术活动被认识到的。在工业、科学、商业等领域中,依靠发现海量数据中所蕴含的潜在有价值的知识,最终解决所存在的生产、经营和服务等方面的问题。因此,在本书中特别强调了对数据挖掘过程中各个环节的认识和掌握,通过较大的篇幅和较为详尽的阐述,力求使读者认识到数据挖掘不仅仅是算法的应用和模型的建立与修正,而且应该通过对问题的分析、数据的认识、数据的处理、算法的应用,以及最重要的问题的解决等一系列环节的掌握和应用,达到解决问题、提升管理、提升服务的目的。
在本书中,深入探讨了数据挖掘的基本原理和过程,运用信息科学、计算科学和统计学的知识来构建数据挖掘的技术,阐述了实现数据挖掘的各主要功能、挖掘算法和应用,并通过对实际数据的分析使读者更加深入地理解常用的数据挖掘模型。为了能够充分学习和掌握本书中的算法和技术,读者应具备基本的概率论与数理统计、程序设计、数据结构和数据库技术等相关知识。本书适合作为高等院校数据科学与大数据技术、信息与计算科学、信息管理与信息系统等专业学生的数据挖掘课程教材,或供非计算机专业但对相关内容感兴趣的读者学习。
本书共分为10章。第1章主要介绍了数据挖掘的发展和概念;第2章主要对完成数据挖掘的各个环节及其所需完成的任务做了大致介绍,使读者建立起对数据挖掘系统性的概念;第3章主要介绍了数据挖掘过程中的数据采集、数据抽样和数据清理等环节的方法和要求;第4章介绍了在运用算法进行数据挖掘和建立模型之前,需对数据进行初步探索的内容;第5章至第8章分别介绍了数据挖掘的核心算法关联分析、分类预测、聚类分析和回归分析;第9章概要介绍了几款较为通用的数据挖掘软件;第10章介绍了易用易得的开源数据挖掘软件WEKA。
在本书的编写过程中,力争内容完整、科学、易于理解,因而查阅了大量的热心学者和爱好者在互联网上以各种形式贡献的资料,也参阅了大量的相关书籍,在此,对这些作者表示衷心感谢。
本书内容涉及许多学科和知识,由于笔者水平和精力有限,难免有疏漏和错误之处。读者在使用本书的过程中,如有宝贵的意见和建议,欢迎
|
|