新書推薦:
《
中国高等艺术院校精品教材大系:材料的时尚表达??服装创意设计
》
售價:HK$
76.2
《
美丽与哀愁:第一次世界大战个人史
》
售價:HK$
143.4
《
国家豁免法的域外借鉴与实践建议
》
售價:HK$
188.2
《
大单元教学设计20讲
》
售價:HK$
76.2
《
儿童自我关怀练习册:做自己最好的朋友
》
售價:HK$
69.4
《
高敏感女性的力量(意大利心理学家FSP博士重磅力作。高敏感是优势,更是力量)
》
售價:HK$
62.7
《
元好问与他的时代(中华学术译丛)
》
售價:HK$
87.4
《
汽车传感器结构·原理·检测·维修
》
售價:HK$
109.8
|
編輯推薦: |
本书通过机器学习与可视化组件相结合的方式,系统介绍机器学习与可视化分析相关技术,并通过实战项目讲解机器学习中最常用的数据挖掘相关知识,例如聚类、线性回归、逻辑回归以及决策树算法。特别是为了满足部分读者的需求,本书还详细介绍了深度学习的两个基础算法——文本分类与图像识别算法。
|
內容簡介: |
使用机器学习进行数据可视化分析是近年来研究的热点内容之一。本书使用**的Python作为机器学习的基本语言和工具,从搭建环境开始,逐步深入到理论、代码、应用实践中去,从而使初学者能够独立使用机器学习完成数据分析。本书配套示例代码、PPT课件和答疑服务。 本书分为10章,内容包括:机器学习与Python开发环境、用于数据处理及可视化展示的Python类库、NBA赛季数据可视化分析、聚类算法与可视化实战、线性回归与可视化实战、逻辑回归与可视化实战、决策树算法与可视化实战、基于深度学习的酒店评论情感分类实战、基于深度学习的手写体图像识别实战、TensorFlow Datasets和TensorBoard训练可视化。 本书内容详尽、示例丰富,是机器学习初学者的入门书和必备的参考书,也可作为高等院校计算机及大数据相关专业的教材使用。
|
關於作者: |
王晓华,计算机专业讲师,长期讲授面向对象程序设计、数据结构、Hadoop程序设计等研究生和本科生相关课程;主要研究方向为云计算、数据挖掘。曾主持和参与多项国家和省级科研课题,独立科研项目获省级成果认定,发表过多篇论文,拥有一项国家专利。著有《Spark MLlib机器学习实践》《TensorFlow深度学习应用实践》《OpenCV TensorFlow深度学习与计算机视觉实战》《TensorFlow 2.0卷积神经网络实战》《TensorFlow Keras自然语言处理实战》等图书。
|
目錄:
|
第1章 机器学习与Python开发环境 1
1.1 机器学习概述 1
1.1.1 机器学习的前世今生 1
1.1.2 机器学习的研究现状与方向 3
1.1.3 机器学习之美——数据的可视化 4
1.2 Python的基本安装和用法 5
1.2.1 Anaconda的下载与安装 6
1.2.2 Python编译器PyCharm的安装 8
1.2.3 使用Python实现softmax函数计算 11
1.3 Python常用类库中的threading 12
1.3.1 threading模块中的Thread类 13
1.3.2 threading中Lock类 14
1.3.3 threading中Join类 15
1.4 本章小结 16
第2章 用于数据处理及可视化展示的 Python类库 17
2.1 从小例子起步——NumPy的初步使用 17
2.1.1 数据的矩阵化 17
2.1.2 数据分析 19
2.1.3 基于统计分析的数据处理 20
2.2 图形化数据处理——Matplotlib包的使用 21
2.2.1 差异的可视化 21
2.2.2 坐标图的展示 22
2.2.3 大数据的可视化展示 23
2.3 常用的统计分析方法——相似度计算 26
2.3.1 欧几里得相似度计算 26
2.3.2 余弦相似度计算 27
2.3.3 欧几里得相似度与余弦相似度的比较 28
2.4 数据的统计学可视化展示 28
2.4.1 数据的四分位数 28
2.4.2 数据的四分位数示例 29
2.4.3 数据的标准化 32
2.4.4 数据的平行化处理 34
2.4.5 热力图——属性相关性检测 35
2.5 Python分析某地降雨量变化规律 36
2.5.1 不同年份的相同月份统计 36
2.5.2 不同月份之间的增减程度比较 38
2.5.3 每月降雨是否相关 39
2.6 本章小结 40
第3章 NBA赛季数据可视化分析 41
3.1 基于球员薪资的数据分析 41
3.1.1 关于球员薪资的一些基本分析 41
3.1.2 关于球员RPM相关性的分析 44
3.1.3 关于球员RPM数据的分析 45
3.2 Seaborn常用的数据可视化方法 46
3.2.1 关于RPM、薪资和年龄的一元可视化分析 46
3.2.2 关于RPM、薪资、年龄的二元可视化分析 47
3.2.3 关于衍生变量的可视化分析 49
3.2.4 NBA球队数据的分析结果 51
3.3 NBA赛季数据分析 53
3.3.1 关于赛季发展的一些基本分析 53
3.3.2 群星璀璨的NBA 57
3.3.3 关于球员高级数据的一些基本分析 65
3.4 本章小结 66
第4章 聚类算法与可视化实战 67
4.1 聚类的定义 67
4.1.1 衡量距离的方法 68
4.1.2 聚类算法介绍 72
4.2 经典K-means聚类算法实战 76
4.2.1 经典K-means算法的Python实现 76
4.2.2 基于Iris数据集的可视化分析 78
4.2.3 投某音还是投某宝?基于K-means的广告效果聚类分析 81
4.3 基于密度的聚类算法DBSCAN 88
4.3.1 DBSCAN算法原理与Python实现 89
4.3.2 基于sklearn的DBSCAN实战 93
4.3.3 DBSCAN的优缺点比较 95
4.4 基于层次的聚类算法 96
4.4.1 基于层次算法的原理 96
4.4.2 Agglomerative算法与示例 98
4.5 本章小结 101
第5章 线性回归与可视化实战 102
5.1 线性回归的基本内容与Python实现 102
5.1.1 什么是线性回归 102
5.1.2 最小二乘法详解 103
5.1.3 道士下山的故事——随机梯度下降算法 105
5.1.4 基于一元线性回归的比萨饼价格计算 107
5.1.5 线性回归的评价指标 109
5.1.6 线性回归应用 110
5.2 多元线性回归实战 111
5.2.1 多元线性回归的基本内容 112
5.2.2 多元线性回归的Python实现 113
5.2.3 基于多元线性回归的房价预测实战 115
5.3 本章小结 122
第6章 逻辑回归与可视化实战 123
6.1 逻辑回归的基本内容与Python实现 123
6.1.1 逻辑回归是一个分类任务 124
6.1.2 逻辑回归的基本内容 124
6.1.3 链式求导法则 126
6.1.4 逻辑回归中的Sigmoid函数 131
6.2 基于逻辑回归的鸢尾花(Iris)分类 132
6.2.1 鸢尾花数据集简介与基础可视化分析 132
6.2.2 鸢尾花数据集进阶可视化分析 135
6.2.3 基于鸢尾花数据集的数据挖掘 137
6.2.4 基于线性回归与K-means的鸢尾花数据集分类 140
6.2.5 基于逻辑回归的鸢尾花数据集分类 143
6.3 本章小结 147
第7章 决策树算法与可视化实战 148
7.1 水晶球的秘密 148
7.1.1 决策树 149
7.1.2 决策树的算法基础——信息熵 149
7.1.3 决策树的算法基础——ID3算法 151
7.2 决策树背后的信息——信息熵与交叉熵 152
7.2.1 交叉熵基本原理详解 152
7.2.2 交叉熵的表述 154
7.3 决策树实战——分类与回归树 156
7.3.1 分类树与回归树的区别 156
7.3.2 基于分类树的鸢尾花分类实战 157
7.3.2 基于回归树的波士顿房价预测 158
7.4 基于随机森林的信用卡违约实战 159
7.4.1 随机森林的基本内容 159
7.4.2 随机森林与决策树的可视化比较 161
7.4.3 基于随机森林的信用卡违约检测 164
7.5 本章小结 175
第8章 基于深度学习的酒店评论情感分类实战 176
8.1 深度学习 176
8.1.1 何为深度学习 176
8.1.2 与传统的“浅层学习”的区别 178
8.2 酒店评论情感分类——深度学习入门 178
8.3 深度学习的流程、应用场景和模型分类 182
8.3.1 深度学习的流程与应用场景 182
8.3.2 深度学习的模型分类 183
8.3 本章小结 184
第9章 基于深度学习的手写体图像识别实战 185
9.1 卷积运算的基本概念 185
9.1.1 卷积运算 186
9.1.2 TensorFlow中卷积函数的实现 187
9.1.3 池化运算 189
9.1.4 softmax激活函数 190
9.1.5 卷积神经网络原理 191
9.2 MNIST手写体识别 193
9.2.1 MNIST数据集 193
9.2.2 MNIST数据集特征和标签 195
9.2.3 卷积神经网络编程实战:MNIST数据集 197
9.3 基于多层感知机的手写体识别 200
9.3.1 多层感知机的原理与实现 201
9.3.2 多层感知机的激活函数 203
9.4 消除过拟合——正则化与dropout 205
9.4.1 正则化与dropout概述 205
9.4.2 使用防过拟合处理的多层感知机 206
9.4.3 Keras创建多层感知机的细节问题 207
9.5 本章小结 208
第10章 TensorFlow Datasets和TensorBoard 训练可视化 210
10.1 TensorFlow Datasets简介 210
10.1.1 TensorFlow Datasets的安装 212
10.1.2 TensorFlow Datasets的使用 212
10.2 TensorFlow Datasets数据集的使用——FashionMNIST 214
10.2.1 FashionMNIST数据集的下载与展示 215
10.2.2 模型的建立与训练 216
10.3 使用Keras对FashionMNIST数据集进行处理 218
10.3.1 获取数据集 218
10.3.2 数据集的调整 218
10.3.3 使用Python类函数建立模型 219
10.3.4 Model的查看和参数打印 220
10.3.5 模型的训练和评估 221
10.4 使用TensorBoard可视化训练过程 223
10.4.1 TensorBoard的文件夹的设置 223
10.4.2 TensorBoard的显式调用 224
10.4.3 TensorBoard的使用 225
10.5 本章小结 229
|
內容試閱:
|
机器学习无疑是当前数据挖掘领域的一个热点内容,其理论和方法已经广泛应用于解决工程应用的复杂问题之中,很多人在日常工作中都或多或少地用到了机器学习的算法。
但是长期以来,由于从业者的知识能力储备不同和具体复杂的业务环境,机器学习技术并没有被广泛地应用。究其原因是机器学习主要是针对数字以及以数字为基础的矩阵进行模拟计算,而无论是在训练过程还是在结果的导出上,大多数都是单纯地使用数字进行结果呈现,无法直接对事件的走势或具体内容做一个直观可视化的展示,因此这极大地限制了机器学习在具体项目中落地和实现。
本书通过机器学习与可视化组件相结合的方式,系统地介绍机器学习与可视化分析相关技术,并通过实战项目讲解机器学习中最常用的数据挖掘相关知识,例如聚类、线性回归、逻辑回归以及决策树算法。特别是为了满足部分学者的需求,本书详细介绍了深度学习的两个基础算法——图像识别与文本分类算法。
可视化组件的加入,可以很容易地让使用者或者审阅者更直接地对机器学习过程和结果进行可视化分析,而Python本身也提供了多种多样的可视化分析模块,可以从不同角度对数据结果进行直接分析,从而降低了学习和理解的难度。
本书以Python为基础编程语言进行编写,循序渐进地教会读者使用机器学习算法切实地解决现实中遇到的各种问题,并通过多种图表、趋势线与分布图的形式进行展示。本书从基本的常用数据分析开始,到最终使用各种高性能机器学习库,包括利用Sklearn、TensorFlow进行深度学习程序设计和实战分析,全面介绍使用机器学习技术进行数据项目分析的核心内容和相关知识,内容全面而翔实。
同时,本书对机器学习的核心算法和理论进行深入分析,重点和难点内容均结合代码进行实战讲解,围绕机器学习原理介绍了大量实战案例,读者通过这些实例可以深入掌握机器学习的内容,加强对机器学习的理解。
本书是一本面向初级和中级读者的优秀教程。通过本书的学习,读者能够掌握机器学习的基本内容,并能结合可视化分析技术构建完整的数据分析方法,以及掌握代码编写的具体应用技巧。
本书特色
(1)易入门、可视化。本书通过可视化方法完整详细地介绍机器学习的多个具体案例,从理论基础到代码编写,从训练过程到结果呈现,都做到讲解详细、描述清晰、直观生动,可视化展现效果强烈。
(2)作者经验丰富,代码编写细腻。作者是长期奋战在科研和工业界的一线算法设计和程序编写人员,实战经验丰富,对代码中可能会出现的各种问题和“坑”有丰富的处理经验,使得读者能够少走很多弯路。
(3)理论扎实,深入浅出。在代码设计的基础上,本书还深入浅出地介绍了机器学习需要掌握的一些基本理论知识,通过大量的公式与图示结合的方式对理论进行介绍,是一本难得的好书。
(4)逐步加强,有所深入。本书在讲解机器学习的同时,也对部分深度学习的常用的内容进行实战讲解,并提供了一些最新实现某些功能的深度学习解决方案,可以引导感兴趣的读者在深度学习领域加强学习。
本书内容及知识体系
本书主要内容如下:
第1~2章是本书的起始部分,详细介绍Python的基本安装方法与多个类库的使用情况,结合数据处理初步讲解一些机器学习所涉及的基本理论分析算法,并通过实战项目演示数据分析算法的代码编写,用可视化手段对相关数据进行展示。
第3章开始进入机器学习的讲解,详细介绍使用机器学习进行项目实战的方法和过程,通过一个贯穿始终的数据分析实战项目,循序渐进地向读者展示数据分析的一些基本算法和思想、常用的数据可视化方法,以及从个体向整体偏移的数据分析思路。
第4章主要介绍是数据分析中最常用的聚类算法。本章按理论基础与实际项目的结合和划分情况,向读者介绍多种聚类算法,例如常用的K-means算法、基于密度的BBSCAN算法以及Agglomerative算法等。通过实战项目可视化演示算法的运行结果,并对其优缺点进行比较。
第5章主要内容是线性回归。线性回归是机器学习最常用也是最经典的算法。本章向读者介绍线性回归的基本理论和最为核心的梯度下降算法,通过多个图示的方式向读者展示梯度下降是如何一步步地修正结果的。同时,本章还讲解了部分提高内容,将一元线性回归广义地推广到多元线性回归,使得读者能够使用线性回归应对现实生活中更广泛的实际项目,并通过一个实战项目完整地展示如何使用多元线性回归。
第6章主要内容是逻辑回归。从名称上看逻辑回归是线性回归的姊妹篇,然而逻辑回归与线性回归有着本质的区别。相对于线性回归的连续的线性回归任务,逻辑回归执行的是离散分类任务。本章还将进一步地讲解梯度下降算法,通过可视化方法向读者演示了反向传播算法在模型训练过程中的误差传递情况。本章实战项目的演示也是为了帮助读者增强实际代码编写的能力。
第7章主要内容是决策树算法。本章以一个传统的“把戏”为开篇,介绍决策树算法的主要内容和算法基础。通过可视化实战分类与回归树,演示决策树的应用与数据分析方法。随后还对单一的决策树算法进行升级,介绍随机森林的理论与实战,帮助读者更好地了解随机森林与单一决策树之间的关系和应用场景。
第8章开始进入深度学习的学习。自然语言处理是机器学习一般无法涉及的内容。本章向读者介绍采用深度学习进行文本分类的一般方法和步骤,并通过一个实战项目演示采用TensorFlow
进行文本分类的方法和过程。这一章内容比较简单,但是可以引导读者将兴趣从传统机器学习平移到机器学习中最新的深度学习领域。
第9章介绍使用深度学习进行图像识别和分类的基本方法,以及深度学习中比较重要的卷积、池化、激活函数、dropout等相关内容,并通过实战项目演示采用机器学习中的深度学习进行图像识别的方法。
第10章是深度学习模型与训练过程可视化部分,介绍基于Python的在线数据集TensorFlow Datasets的使用方法,这部分的内容能够帮助读者掌握机器学习中数据集的获取方法。而对于训练模型与过程可视化部分,还介绍了TensorBoard,这是一种对训练过程进行可视化观察的组件,熟练掌握TensorBoard能够帮助读者加深对机器学习运行机制的理解。
本书所有的内容都有翔实的理论介绍与完整的程序实现,在数据分析部分都提供了详尽的可视化讲解,旨在帮助读者解决在使用机器学习进行实践时可能遇到的各种问题。
配套示例源码、PPT课件下载
本书配套示例源码、PPT课件,需要使用微信扫描下面二维码获取,可按扫描后的页面提示填写你的邮箱,把下载链接转发到邮箱中下载。如果发现问题或疑问,请发送电子邮件联系booksaga@163.com,邮件主题为“Python机器学习与可视化分析实战”。
适合阅读本书的读者
? 机器学习入门读者
? 数据分析入门读者
? 深度学习入门读者
? 数据可视化分析入门读者
? 高等院校人工智能、大数据专业的学生
? 培训机构的学员
? 其他对智能化、自动化感兴趣的开发者
勘误和支持
由于作者的水平有限,加之编写本书的时间跨度较长,同时机器学习技术的演进较快,在本书编写过程中难免会出现疏漏或者不准确的地方,恳请读者来信批评指正。
感谢清华大学出版社的老师们,在本书编写过程中提供了无私的帮助和宝贵的建议,正是由于他们的耐心和支持才让本书得以顺利出版。感谢我的家人对我的支持和理解,他们给予我莫大的动力,让我的努力更加有意义。
著 者
2022年7月
|
|