新書推薦:
《
惜华年(全两册)
》
售價:HK$
70.3
《
甲骨文丛书·古代中国的军事文化
》
售價:HK$
99.7
《
中国王朝内争实录(套装全4册):从未见过的王朝内争编著史
》
售價:HK$
244.2
《
半导体纳米器件:物理、技术和应用
》
售價:HK$
177.0
《
创客精选项目设计与制作 第2版 刘笑笑 颜志勇 严国陶
》
售價:HK$
61.6
《
佛山华家班粤菜传承 华家班59位大厨 102道粤菜 图文并茂 菜式制作视频 粤菜故事技法 佛山传统文化 广东科技
》
售價:HK$
221.8
《
武人琴音(十周年纪念版 逝去的武林系列收官之作 形意拳一门三代:尚云祥、韩伯言、韩瑜的人生故事 凸显百年武人命运)
》
售價:HK$
43.7
《
剑桥斯堪的纳维亚戏剧史(剑桥世界戏剧史译丛)
》
售價:HK$
154.6
|
內容簡介: |
数据分析与可视化在大数据时代扮演着重要角色。数据分析用于将原始数据转化为可行的见解,可视化能将关键数据和特征直观地表达出来。本书深入浅出地介绍了数据分析与可视化的相关理论和实践,全书共7章。第1章阐明NumPy的基础操作。第2章详细介绍NumPy的高级应用,内容包括数组的高级索引方式、张量的合并与分割、NumPy文件的读与写。第3章介绍Pandas的基本特性。第4章详细阐述Pandas的高级特性。第5章详细讨论可视化工具Matplotlib的用法。第6章介绍高阶可视化工具Seaborn的用法。第7章讲解时间序列数据的处理。每个章节均给出了可用性强的实战项目。本书结构完整、行文流畅,是一本图文并茂、通俗易懂的数据分析与可视化的零基础入门著作。对于计算机、大数据、人工智能及相关专业的本科生和研究生,这是一本适合入门与系统学习的教材;对于从事数据分析与可视化的工程技术人员,本书亦有很高的参考价值。
|
關於作者: |
张玉宏,2012年博士毕业于电子科技大学,大数据分析师(高级),2009年~2011年美国西北大学访问学者,2019年~至今,美国IUPUI高级访问学者,现执教于河南工业大学,主要研究方向为大数据、机器学习等,发表学术论文30余篇,阿里云栖社区专栏科技作家,先后出版《深度学习之美》《品味大数据》等科技畅销书6部,参编英文学术专著2部。
|
目錄:
|
目 录
第1章 NumPy数值计算基础001
1.1 为何还需NumPy002
1.2 如何安装和导入NumPy002
1.3 N维数组的本质003
1.3.1 NumPy数组的两种视图004
1.3.2 数组的常用属性004
1.4 如何生成NumPy数组008
1.4.1 利用序列生成008
1.4.2 利用特定方法生成009
1.4.3 利用其他常用方法011
1.5 NumPy中的随机数生成014
1.6 NumPy数组中的运算016
1.6.1 向量运算016
1.6.2 NumPy中的通用函数017
1.6.3 逐元素运算与点乘运算019
1.6.4 向量的内积与矩阵乘法020
1.7 NumPy中的广播机制022
1.7.1 广播的本质022
1.7.2 “低维有1”情况下的广播023
1.7.3 “后缘相符”情况下的广播023
1.7.4 “后缘不符但低维有1”情况下的广播024
1.8 NumPy中的轴026
1.8.1 认识轴的概念026
1.8.2 基于轴的约减操作027
1.8.3 基于轴的各种运算028
1.9 操作数组元素031
1.9.1 通过索引访问数组元素031
1.9.2 NumPy中的切片访问033
1.9.3 二维数组的转置与展平035
1.10 实战:张量思维的养成——利用NumPy计算π038
1.11 本章小结042
1.12 思考与提高042
第2章 NumPy数值计算进阶044
2.1 NumPy数组的高级索引045
2.1.1 花式索引045
2.1.2 好用的布尔索引050
2.2 张量的堆叠操作与分割051
2.2.1 水平方向堆叠hstack052
2.2.2 垂直方向堆叠vstack053
2.2.3 深度方向堆叠dstack054
2.2.4 张量的分割操作056
2.3 NumPy张量的升维与降维062
2.4 数据的去重与铺叠064
2.4.1 用unique去重065
2.4.2 用tile铺叠数据068
2.5 张量的排序071
2.5.1 数值排序071
2.5.2 按列名(order)排序073
2.5.3 多序列排序(lexsort)076
2.5.4 索引排序(argsort)078
2.5.5 索引最大值(argmax)与最小值(argmin)080
2.6 常用的统计方法081
2.6.1 最大值、最小值与极值区间082
2.6.2 均值、中位数、百分数与方差083
2.6.3 众数与堆统计084
2.7 NumPy文件的读与写086
2.7.1 二进制文件的读与写087
2.7.2 文本文件的读与写090
2.7.3 CSV文件的读与写091
2.8 基于NumPy的综合实践093
2.8.1 鸢尾花数据集的统计分析093
2.8.2 电力负荷数据的处理097
2.9 本章小结100
2.10 思考与练习101
第3章 Pandas数据分析初步102
3.1 Pandas简介与安装103
3.2 Series类型数据104
3.2.1 Series的创建104
3.2.2 索引访问与重建索引106
3.2.3 通过字典构建Series109
3.2.4 Series中数据的选择110
3.2.5 向量化操作112
3.2.6 布尔索引114
3.2.7 切片访问114
3.2.8 数值的删除115
3.2.9 数值的添加117
3.3 DataFrame 类型数据119
3.3.1 构建DataFrame120
3.3.2 访问DataFrame中的列与行122
3.3.3 DataFrame的删除操作128
3.3.4 添加行与列130
3.4 基于Pandas的文件读取与分析135
3.4.1 读取CSV文件——以工资信息表为例136
3.4.2 DataFrame中的常用属性137
3.4.3 DataFrame中的常用方法138
3.4.4 DataFrame的条件过滤141
3.4.5 DataFrame的切片操作143
3.4.6 DataFrame的排序操作145
3.5 实战:读取Excel文件——以电力负荷数据为例146
3.5.1 数据源参数147
3.5.2 特定表单参数147
3.5.3 表头读数150
3.5.4 表头名称参数151
3.5.5 索引列参数152
3.5.6 解析列参数152
3.5.7 数据转换参数153
3.6 本章小结153
3.7 思考与练习154
第4章 Pandas数据预处理与深加工156
4.1 数据清洗157
4.1.1 缺失值标记与检测157
4.1.2 检测形式各异的缺失值159
4.1.3 缺失值的删除161
4.1.4 缺失值的填充163
4.2 数据的标准化168
4.2.1 MAX-MIN归一化168
4.2.2 零均值标准化171
4.3 数据变换与数据离散化172
4.3.1 类别型数据的哑变量处理172
4.3.2 连续型变量的离散化174
4.4 函数的映射与应用178
4.4.1 map函数的使用178
4.4.2 apply函数的使用183
4.4.3 applymap函数的使用188
4.5 索引的高阶应用189
4.5.1 重建索引189
4.5.2 设置索引190
4.5.3 重置索引193
4.5.4 分层索引195
4.5.5 实战:《指环王》台词数量分析201
4.6 数据的融合与堆叠205
4.6.1 merge按键数据融合205
4.6.2 concat按轴堆叠数据210
4.6.3 append数据项追加214
4.7 数据的聚合和分组操作215
4.7.1 聚合操作216
4.7.2 分组与聚合217
4.7.3 分组与转换220
4.8 数据重塑与透视224
4.8.1 数据重塑224
4.8.2 数据透视228
4.8.3 实战:《指环王》中的透视表230
4.9 实战:泰坦尼克幸存者数据预处理分析234
4.9.1 数据简介234
4.9.2 数据探索236
4.9.3 缺失值处理238
4.10 本章小结241
4.11 思考与练习242
第5章 Matplotlib可视化分析244
5.1 可视化与Matplot245
5.2 Matplot绘制简单图形246
5.3 pyplot的常用方法249
5.3.1 添加图例与注释249
5.3.2 设置(中文)标题及坐标轴251
5.3.3 添加网格线256
5.3.4 绘制多个子图257
5.3.5 Axes与subplot的区别259
5.3.6 图形的填充265
5.4 折线图268
5.5 散点图270
5.6 条形图与直方图271
5.6.1 垂直条形图271
5.6.2 水平条形图273
5.6.3 并列条形图274
5.6.4 直方图278
5.7 饼状图281
5.8 箱形图283
5.9 误差条285
5.10 实战:谷歌流感趋势数据可视化分析287
5.10.1 谷歌流感趋势数据描述287
5.10.2 导入数据与数据预处理288
5.10.3 绘制时序曲线图291
5.10.4 选择合适的数据可视化表达293
5.10.5 基于条件判断的图形绘制296
5.10.6 绘制多个子图299
5.11 本章小结300
5.12 思考与提高301
第6章 可视化分析进阶304
6.1 绚丽多姿的Seaborn305
6.1.1 Matplotlib与Seaborn对比305
6.1.2 Seaborn的样式设置308
6.1.3 设置应用模式与绘图元素缩放比例309
6.1.4 使用despine方法进行边框控制311
6.1.5 使用axes_style方法设置子图风格312
6.2 Seaborn中的常用绘图315
6.2.1 回归图315
6.2.2 对图317
6.2.3 密度图319
6.2.4 直方图323
6.2.5 热力图329
6.2.6 箱形图330
6.2.7 小提琴图334
6.3 手绘风格的绘图338
6.3.1 手绘曲线338
6.3.2 手绘柱状图339
6.3.3 在手绘图中添加中文卡通字体340
6.3.4 手绘饼状图343
6.4 实战:泰坦尼克幸存者数据可视化分析345
6.4.1 导入数据345
6.4.2 绘制幸存者情况346
6.4.3 绘制乘客的其他信息346
6.5 本章小结351
6.6 思考与练习351
第7章 时间序列数据分析354
7.1 时间序列数据概述355
7.2 日期和时间数据类型356
7.2.1 datetime模块356
7.2.2 datetime转换为timestamp357
7.2.3 datetime转换为str359
7.2.4 datetime的加与减359
7.2.5 NumPy中的日期模块360
7.3 时间序列对象的构建与切片362
7.3.1 时间序列构造362
7.3.2 时间索引与切片364
7.4 日期范围、频率和移位365
7.4.1 日期范围366
7.4.2 时间频率367
7.4.3 时间序列的移位操作368
7.5 时期的表示371
7.5.1 时期的创建与运算371
7.5.2 频率转换374
7.5.3 时期与周期的转换375
7.6 时间滑动窗口376
7.7 重采样、降采样和升采样383
7.7.1 重采样383
7.7.2 降采样中的常用参数385
7.7.3 升采样中的缺失值填充387
7.8 实战:面向股票数据的时间序列分析390
7.8.1 股票数据的获取390
7.8.2 设置百日滚动均线393
7.8.3 绘制价格与成交量子图393
7.8.4 股票数据的K线图绘制395
7.9 本章小结397
7.10 思考与练习398
|
|