新書推薦:
《
中国近现代名家精品——项维仁:工笔侍女作品精选
》
售價:HK$
66.1
《
宋瑞驻村日记(2012-2022)
》
售價:HK$
115.6
《
汗青堂丛书138·帝国的切口:近代中国口岸的冲突与交流(1832-1914)
》
售價:HK$
127.4
《
人世事,几完缺 —— 啊,晚明
》
售價:HK$
115.6
《
樊树志作品:重写明晚史系列(全6册 崇祯传+江南市镇的早期城市化+明史十二讲+图文中国史+万历传+国史十六讲修订版)
》
售價:HK$
498.0
《
真谛全集(共6册)
》
售價:HK$
1156.4
《
敦煌通史:魏晋北朝卷
》
售價:HK$
162.3
《
唯美手编16:知性优雅的编织
》
售價:HK$
54.9
|
編輯推薦: |
(1)作者经验丰富:作者是数据分析专家,在电商、美妆、餐饮等领域有丰富的数据分析经验,原创文章全网阅读量破100万。(2)深谙读者痛点:十分了解数据分析师在思维、技能和业务等方面的学习痛点,本书专门为此准备了一套“思维+技能+理论+实践”的方法。(3)以实用为本,聚焦重点:Pandas数据分析常用的高频操作不到Pandas实际功能的20%,却能解决超过80%的问题。本书去繁就简,只专注于能解决大部分问题的重点模块。(4)以实战制胜,案例牵引:书中包含大量实际案例,覆盖大部分数据分析场景,对这些案例抽丝剥茧,帮助读者在实战中获得通用方法和业务技能。(5)8个场景、8大案例、35万行数据集:针对报表自动化、行业机会挖掘、用户分层、用户分群、用户偏好分析、同期群分析、指标波动归因分析、品牌分析等8大经典分析场景,用8大案例和超35万行数据集详细讲解。
|
內容簡介: |
内容简介这既是一本能带领读者零基础快速掌握Python数据分析方法与流程的工具书,又是一本从电商出发指导读者解决各类数据分析问题的实用指南。首先,本书以Python数据分析中使用率极高的Pandas为切入点,注重对数据分析思维和技能的培养,详细讲解了Pandas的操作以及数据分析的方法,可覆盖80%以上的数据分析应用场景,为数据分析师打下坚实基础。然后,本书以电商这个广大读者熟知且普适性极强的业务领域为依托,通过大量案例讲解了报表自动化、行业机会挖掘、用户分层、用户分群、用户偏好分析、同期群分析、指标波动归因分析、品牌分析等8大电商场景的数据分析方法,理论与案例深度融合。本书以实用为本,聚焦重点,Python数据分析常用的高频功能不到Python数据分析能力的20%,本书去繁就简,只专注于能解决大部分问题的重点模块。本书以实战制胜,案例牵引,从表层直观地看,这些案例能解决各种电商业务问题;从深层仔细地分析,作者的本意实则是通过对这些案例抽丝剥茧,手把手教读者在实战中掌握数据分析的通用思维、方法和技能。所以,如果你是关注电商业务的数据分析师,本书针对常见电商数据分析场景给出了具体的方法和解决方案,可照搬使用;如果你是一位没有任何数据分析基础的小白,这本书更加适合你,不仅能快速掌握数据分析的基本思维和方法,而且能在大量案例中获得实战技能和经验。
|
目錄:
|
目 录 Contents
前 言
第1章 Python数据分析准备 1
1.1 Python数据分析基础 1
1.1.1 数据分析的基本概念 1
1.1.2 为什么选择Python 2
1.1.3 Pandas和Python的关系 2
1.2 如何高效学习Pandas 3
1.2.1 Pandas学习中的误区 3
1.2.2 高效学习Pandas 3
1.3 Python所需的环境搭建 5
1.3.1 Python环境的选择 5
1.3.2 Anaconda的下载和安装 5
1.3.3 运行代码 7
1.4 本章小结 13
第2章 Pandas快速入门 14
2.1 Pandas的两大数据结构 14
2.1.1 初识Pandas 14
2.1.2 Series和DataFrame 15
2.2 数据读取和存储 17
2.2.1 Excel文件的读取 17
2.2.2 CSV文件的读取 20
2.2.3 其他文件类型的读取 21
2.2.4 存储数据 22
2.3 快速认识数据 22
2.3.1 查看数据 22
2.3.2 查看数据类型 23
2.3.3 统计信息概览 23
2.4 数据处理初体验 24
2.4.1 增 24
2.4.2 删 24
2.4.3 选 25
2.4.4 改 25
2.5 常用数据类型及操作 25
2.5.1 字符串 25
2.5.2 数值型 26
2.5.3 时间类型 28
2.6 本章小结 29
第3章 玩转索引 30
3.1 索引概述 30
3.1.1 到底什么是索引 30
3.1.2 两种索引类型 31
3.2 基于位置(数字)的索引 31
3.2.1 场景一:行选取 32
3.2.2 场景二:列选取 32
3.2.3 场景三:行列交叉选取 33
3.3 基于名称(标签)的索引 33
3.3.1 基于loc的行选取 34
3.3.2 基于loc的列选取 35
3.3.3 基于loc的交叉选取 35
3.3.4 场景四:多条件索引 36
3.4 本章小结 38
第4章 数据清洗四大核心操作 39
4.1 增:拓展数据维度 39
4.1.1 纵向合并 39
4.1.2 横向连接 41
4.2 删:剔除噪声数据 44
4.2.1 缺失值处理 44
4.2.2 去除重复项 47
4.3 选:基于条件选择数据 48
4.3.1 按条件索引/筛选 48
4.3.2 排序 49
4.4 改:改变数据形态 50
4.4.1 转置 50
4.4.2 分组 50
4.4.3 切分 52
4.5 本章小结 54
第5章 Pandas两大进阶利器 55
5.1 数据透视表 55
5.1.1 什么是数据透视表 55
5.1.2 Pandas数据透视表简介 55
5.1.3 Pandas数据透视表实例 56
5.2 强大又灵活的apply 58
5.2.1 apply初体验 59
5.2.2 用apply计算最好、最差
成绩 59
5.2.3 筛选每个分组下的第3名 61
5.3 本章小结 64
第6章 数据可视化 65
6.1 Matplotlib基础知识 65
6.1.1 Matplotlib简介 65
6.1.2 可视化的关键步骤 65
6.2 Matplotlib基础操作 66
6.2.1 画图前的准备 66
6.2.2 创建画布 66
6.2.3 画图 68
6.2.4 设置坐标轴 69
6.2.5 润色 71
6.3 绘制常用图形 74
6.3.1 绘制折线图 74
6.3.2 绘制柱状图 75
6.3.3 绘制散点图 76
6.3.4 绘制其他常用图形 77
6.4 本章小结 78
第7章 走近电商:商业方法论与
分析体系 79
7.1 什么是电商 79
7.2 三大关键角色 80
7.2.1 用户 80
7.2.2 商家 80
7.2.3 平台 81
7.3 电商基础指标 82
7.3.1 用户相关指标 83
7.3.2 商品相关指标 83
7.4 电商分析方法论及应用 84
7.4.1 黄金公式 84
7.4.2 GROW 86
7.4.3 AIPL 88
7.4.4 抖音5A与京东4A 89
7.5 数据分析师重生之我是老板 90
7.5.1 数据分析师和老板 90
7.5.2 行业趋势分析 91
7.5.3 竞争格局分析 92
7.5.4 品牌策略探究 92
7.5.5 用户分析—探索期 93
7.5.6 用户分析—正式期 94
7.6 本章小结 95
第8章 Python报表自动化 97
8.1 行业数据报表自动化 97
8.1.1 案例背景 97
8.1.2 单张表的处理 99
8.1.3 批量循环执行 101
8.2 报表批量处理与品牌投放
分析 102
8.2.1 新的需求背景 102
8.2.2 数据预览 102
8.2.3 分析思路 104
8.2.4 数据处理 104
8.2.5 数据分析 105
8.3 本章小结 108
第9章 行业机会分析与权重确定 109
9.1 案例背景介绍 109
9.2 传统的解题方法 109
9.2.1 之前的传统思路 109
9.2.2 数据预览和汇总 110
9.2.3 每个类目增长最快的细分
类目 111
9.3 权重确定方法 113
9.3.1 级别法 113
9.3.2 权值因子判表法 113
9.3.3 变异系数法 115
9.4 Pandas权重计算和分析 117
9.4.1 数据整合 117
9.4.2 关键指标计算 118
9.4.3 权重的计算 119
9.4.4 数据标准化 122
9.4.5 综合发展指数 123
9.5 本章小结 124
第10章 用户分层实战 125
10.1 用户分层的基本概念 125
10.1.1 无处不在的用户分层 125
10.1.2 用户分层的类型 126
10.1.3 用户分层的特征 126
10.1.4 为什么要做用户分层 127
10.1.5 分层的两个问题 127
10.2 二八法则 128
10.2.1 二八法则在用户分层上的
应用 128
10.2.2 数据预览 129
10.2.3 数据清洗 131
10.2.4 二八法则下的用户分层 134
10.3 拐点法 136
10.3.1 什么是拐点法 136
10.3.2 拐点法在用户分层上的
应用 136
10.3.3 基于Pandas的拐点法
分层 137
10.4 本章小结 143
第11章 用户分群实战与加强版
RFM模型 144
11.1 走近用户分群 144
11.1.1 用户分群的定义及作用 144
11.1.2 用户分群和用户分层的
区别 144
11.2 RFM用户分群实战 145
11.2.1 经典的RFM模型 145
11.2.2 第一步:数据概览 146
11.2.3 第二步:数据处理 147
11.2.4 第三步:维度打分 149
11.2.5 第四步:分值计算 150
11.2.6 第五步:用户分层 152
11.2.7 RFM模型结果分析 154
11.3 关于RFM模型的重要思考 156
11.3.1 RFM模型隐藏的问题 156
11.3.2 为什么用平均金额作
为M 157
11.4 RFM模型的加强和拓展 158
11.4.1 模型加强和拓展的方向 158
11.4.2 RFM加强版实战案例 158
11.5 本章小结 161
第12章 用户偏好分析 162
12.1 用户偏好分析和TGI 162
12.1.1 用户偏好分析与TGI的
关系 162
12.1.2 TGI的定义 162
12.1.3 通过拆解指标来理解
TGI 163
12.2 用Pandas实现TGI分析 163
12.2.1 项目背景 163
12.2.2 用户打标 165
12.2.3 匹配城市 165
12.2.4 高客单价TGI计算 166
12.2.5 TGI计算中隐藏的问题 168
12.3 本章小结 169
第13章 万能的同期群分析 170
13.1 数据分析师必知必会的同期
群分析 170
13.1.1 同期群分析的基本概念 170
13.1.2 同期群分析的价值 171
13.1.3 同期群分析的万能之处 171
13.2 Pandas同期群分析实战 173
13.2.1 数据概览 173
13.2.2 实现思路剖析 173
13.2.3 单月实现 174
13.2.4 遍历合并和分析 176
13.2.5 回购客单价的同期群
实现 179
13.3 本章小结 181
第14章 指标波动归因分析 182
14.1 指标波动贡献率 182
14.1.1 什么是贡献率 182
14.1.2 可加型指标波动贡献率的
计算 183
14.1.3 乘法型指标波动贡献率的
计算 185
14.1.4 除法型指标波动贡献率的
计算 187
14.2 Adtributor算法 193
14.2.1 Adtributor介绍 193
14.2.2 单个维度的基础案例 194
14.2.3 多个维度的算法逻辑和
Pandas实现 196
14.3 本章小结 200
第15章 一份全面的品牌分析
报告 202
15.1 探索性数据分析简介 202
15.1.1 常规的探索性数据分析 202
15.1.2 探索性数据分析的价值 202
15.1.3 不一样的探索性数据
分析 203
15.2 数据预处理 203
15.2.1 数据导入 203
15.2.2 数据预览 203
15.2.3 重复项检验 205
15.2.4 缺失值处理 205
15.2.5 异常值清洗 206
15.2.6 字段格式规整 207
15.2.7 订单状态筛选 208
15.3 数据总览分析 208
15.3.1 年度销售额变化 208
15.3.2 年度用户数和客单价
变化 209
15.4 用户数据分析 210
15.4.1 销售额和用户数月度
趋势 210
15.4.2 客单价月度趋势 212
15.4.3 客单价细拆 213
15.4.4 新老用户分析 214
15.4.5 复购率分析 217
15.4.6 用户购买时间间隔 218
15.5 商品数据分析 221
15.5.1 品类销售结构 221
15.5.2 价格带分析 223
15.5.3 商品销售集中度分析 226
15.6 购物篮关联分析 228
15.6.1 什么是购物篮关联分析 228
15.6.2 购物篮关联分析的三大核心
指标 229
15.6.3 购物篮关联分析实战 230
15.7 本章小结 238
|
內容試閱:
|
Preface 前 言
为什么写这本书
在多年数据分析从业经历和微信公众号创作经历中,我接触过很多对数据分析感兴趣的朋友,他们有的想要入门但还没有行动,有的跟着教程开始自学,有的已经有了一定的经验。我发现,大家在数据分析的学习与实践过程中会遇到一些共性问题。这些问题,有与数据分析技能和思维相关的,例如:
Excel已经无法处理现有的数据量了,我应该换什么工具?
我学习了一大堆Pandas资料,可为什么到实际处理数据时仍然无从下手?
我跟着公开数据分析案例练了很久,为什么当自己面对数据需求时还是没有分析思路?
我学了对比、细分、聚类分析,也会用PEST、波特五力和杜邦这类分析方法,为什么面试的时候总被认为思路过于简单?
也有与业务场景相关的,例如指标波动归因分析、市场行业机会分析、用户分层研究、购物篮关联分析等。
这些问题对于我来说可谓既“痛”又“痒”:“痛”在于我也曾受相关问题困扰,深知要解决它们需要投入大量的精力,也可能会走很多弯路;“痒”是因为我基于多年的实战和分享经验,经过许多个日日夜夜,总结了一套技能+思维、理论+实践的数据分析学习方法,不分享出来心痒难耐。
我希望通过本书,把我对于Python数据分析的所知、所思、所感,结合电商实际案例系统地分享给大家。特别要说明的是,之所以选择电商场景,主要有两个原因:
基于自身多年的电商从业经验,我可以从最熟悉的场景出发,提供最贴近实战的数据,让Pandas更加契合具体业务场景,把案例讲通讲透,解决数据分析技能与分析脱节、分析案例不够深入的问题。
电商是一个很容易理解且十分常见的商业模式,其中人、货、场分析大框架非常具有代表性,尤其是“人”的维度,追本溯源,就是解决如何选择用户,如何评估拉新、留存效果,如何对用户进行分类等常见问题。可见,电商的本质分析方法论适用的行业和场景广阔。
我相信,Python数据分析与电商相结合一定会闪烁出更为耀眼的光芒,帮助读者在数据分析的道路上走得更远。
本书读者对象
本书适用于每一位想要提升Python数据分析和实战能力的读者,读完本书并跟着案例练习后,读者将能够熟练运用Pandas进行数据分析,大大提升数据处理和分析的效率。本书同样适用于想要了解电商行业和想进一步熟悉电商实战案例的读者,书中详尽的案例和代码可以帮助读者更好地解决实际业务问题。
本书特色
以实用为纲,聚焦重点。实际上,大部分Excel高手使用的高频功能不到Excel全部功能的20%,Python数据分析领域也是如此。本书基于一线实践经验,去繁就简,专注于那些能够解决绝大部分问题的重点模块。
层层递进,实战案例丰富。本书基础内容只有6章,旨在帮助大家快速熟悉Pandas操作。核心内容是8章实战案例,从报表自动化到行业机会分析,再到用户分层分析、用户分群分析、用户偏好分析、指标波动归因分析等,最后到一个完整的品牌分析案例。这些案例由浅入深,都是从实战中萃取的,涵盖Pandas数据处理和分析的大部分场景,跟着操作一遍,你的Pandas技能和分析思维都会大大提升。
本书主要内容
为了实现技能与思维、理论与实践相结合的目标,我选择了以Python数据分析中最常用的Pandas为切入点,围绕电商场景,用一个个详尽的案例把技能和思维抽丝剥茧般地完整呈现出来。
本书共15章,主要内容如下。
第1~6章 数据分析基础
主要帮助读者快速熟悉Pandas,内容包括Python数据分析基础知识、Pandas入门操作,以及实际分析工作中最常用的增、删、选、改操作和可视化等技巧,覆盖了80%以上的应用场景。
第7~15章 数据分析实战
聚焦于Pandas在电商场景中的应用。第7章讲解电商基础知识,包括电商的商业逻辑、常用指标体系和经典的分析模型。第8~15章用8个实战案例详细讲解报表自动化、行业机会分析、用户分层分析、用户分群分析、用户偏好分析、同期群分析、指标波动归因分析以及一份全面的品牌分析报告的产生过程。每一章都既有案例背景,也有脱敏的实战数据源,更有详细的操作代码和分析思路。
本书配套资源
关注我的微信公众号“数据不吹牛”并回复“配套资料”即可获取我为本书精心准备的以下配套资源。
书中所有练习和案例的相关数据集。
所有项目的完整案例代码。
拓展学习资源(Python基础教程、分析方法论等)。
社群学习答疑和勘误信息。
致谢
感谢我的父母,是他们给了我生命和受教育的机会。
感谢韩冬冬在我创作过程中给了我莫大的鼓舞。
感谢朱婉文、蔡勇辉、郭琳依、陈小妹、朱小五、张俊红、黄佳、纪明轩、张小莉等朋友在我创作过程中给了我宝贵的建议。
最后,感谢我的粉丝和读者,是他们的陪伴与支持让我有了持续创作和分享的动力。
|
|