本书系统介绍了数据预处理、数据仓库和数据挖掘的原理、方法及应用技术,以及使用目前在数据分析与挖掘领域非常热门的Python语言对数据进行分析处理及挖掘建模。本书一共有11章,分为2篇。一为理论篇,第1章绪论介绍了数据分析与挖掘领域中的一些基本理论、研究方法等,也简单介绍Python数据分析与挖掘相关的知识;第2-6章按照数据分析与挖掘的过程安排各章节,介绍数据预处理的方法技术、数据仓库的构建与OLAP技术、数据挖掘原理及算法(包括关联规则挖掘方法、聚类分析方法、分类规则挖掘方法,在每章中,采用小数据集为例详细介绍各种挖掘算法)。二为实验篇,第7章介绍采用python进行数据预处理的各种常见方法、技术;第8章介绍基于SQL Server 2022构建数据仓库及OLAP的过程;第9-11章为使用Python进行关联规则、聚类、分类挖掘算法的实践,在内容的安排上,先采用小数据集进行初步实践,然后再采用大数据集进行综合实践,对于综合实践,按照:挖掘目标数据的探索分析、数据预处理及数据抽取、挖掘模型的构建及可视化、分析挖掘结果的顺序进行,通过完整的案例,加深对数据挖掘算法的理解,最终让读者由易到难、很好地掌握用Python进行数据分析与挖掘的完整过程。本书采用理论与实践相结合的方式,以小数据集为例详细介绍各种挖掘算法,使读者更易掌握挖掘算法的基本原理及过程;使用热门实用的Python语言实践数据预处理及各种挖掘算法,实战性强,也符合目前数据分析与挖掘的发展趋势。既适合Python数据分析与数据挖掘初学者、大数据从业人员阅读,也适合高等院校和培训机构大数据与人工智能相关专业的师生教学参考。
随着云时代的来临,大数据技术将具有越来越重要的战略意义。大数据分析与挖掘技术广泛应用于物联网、云计算、移动互联网等战略性新兴产业。为了满足日益增长的大数据分析与挖掘的人才需求,很多高校开始尝试开设不同程度的大数据分析与挖掘课程。而目前在数据分析与挖掘领域非常热门的是Python语言。本书以计算机科学与技术、软件工程、人工智能、数据科学与大数据技术、物联网工程专业的人才培养方案为依据,从本科教育的特点和培养应用型人才的实际出发,按数据挖掘与知识发现、数据分析与挖掘等课程的教学要求编写而成。通过相关课程的学习,学生应对数据处理、数据分析、数据挖掘过程有整体认知能力;掌握数据预处理的基本方法;掌握数据仓库与数据挖掘的基本理论、设计数据仓库的基本思想和方法;掌握关联规则分析、分类、聚类等主要数据挖掘方法;在掌握基本挖掘算法的基础上,对实际应用数据使用Python进行数据分析与挖掘,为后续课程的学习打下良好基础。本书的理论部分围绕大数据背景下的数据分析与挖掘问题,从基本概念、理论入手,由浅入深,与案例相结合,并按数据分析与挖掘的各过程安排章节,介绍数据预处理的方法与技术、数据仓库的构建与OLAP技术、数据挖掘原理及算法(包括关联规则挖掘方法、聚类分析方法、分类规则挖掘方法)。本书应用性较强,以小数据集为例详细介绍各种挖掘算法,使读者更易掌握挖掘算法的基本原理及过程。本书的实践部分先是展示完整案例,从需求分析到数据仓库模型设计,再到数据仓库构建,*后介绍基于SQL Server 2022构建数据仓库及OLAP;还使用目前在数据分析与挖掘领域非常热门的Python语言,进行关联规则、聚类、分类挖掘算法的实践,在内容的安排上,先采用小数据集进行初步实践,再采用大数据集进行综合实践,对于综合实践,按照挖掘目标数据的探索分析、数据抽取及数据预处理、挖掘模型的构建及可视化、分析挖掘结果的顺序进行。通过完整的案例,读者可以由易到难地、很好地掌握用Python进行数据分析与挖掘的完整过程。*后通过上机实践,加深对相关数据仓库、数据挖掘算法的理解。本书由武昌首义学院徐琴、刘智珺担任主编,苏真真、卓延陵担任副主编,编写分工如下:徐琴、卓延陵编写第1章和第2章;刘智珺、徐琴编写第3章;徐琴、苏真真编写第4章和第5章;刘智珺、苏真真编写第6章;徐琴编写第7~10章。徐琴负责全书统稿工作。本书在编写过程中得到了武昌首义学院的相关课程任课老师的支持与帮助,在此表示感谢。为了方便教学,本书还配有电子课件等资料,任课教师可以发邮件至hustpeiit@163.com索取。本书在编写过程中参考了大量专家学者的论文、著作,编者已在参考文献中列出,谨此致谢,若有疏漏,也在此表示歉意。由于时间仓促且编者水平有限,书中仍存在不足之处,恳请各位同仁和读者批评指正。