新書推薦:
《
真谛全集(共6册)
》
售價:HK$
1156.4
《
敦煌通史:魏晋北朝卷
》
售價:HK$
162.3
《
唯美手编16:知性优雅的编织
》
售價:HK$
54.9
《
情绪的惊人力量:跟随内心的指引,掌控情绪,做心想事成的自己
》
售價:HK$
50.4
《
棉的全球史(历史·文化经典译丛)
》
售價:HK$
109.8
《
超越百岁看这本就够了
》
售價:HK$
55.8
《
亚洲戏剧史·南亚卷
》
售價:HK$
143.4
《
中国历代竹器图谱与数字活化
》
售價:HK$
557.8
|
內容簡介: |
本书对数据科学进行了整体性介绍,涵盖了掌握该学科所需的分析、编程和业务技能等方方面面。找到一个的数据科学家就像是寻找一只独角兽:因为其所需要的技术及技能组合很难在一个人身上兼备。另外,良好的数据科学素养不仅仅是对所训练技能的综合应用,还需要能够灵活考虑所有这些领域,并理解它们之间的联系。本书提供了数据科学的速成课程,将所有必要的技能结合到一个统一的学科体系中。与许多数据分析的书籍不同,本书涵盖了关键的计算机科学和软件工程相关内容,因为它们在数据科学家的日常工作中发挥了极其重要的作用。本书还介绍了经典的机器学习算法,从这些算法的数学基础到实际应用均有描述。本书对可视强调其在数据科学中的核心位置。引入古典统计学的目的是帮助读者用批判性思维对数据进行解释,并指出常见的陷阱。对分析结果的清化工具进行了综述,并晰交流(这也许是数据科学技术中*为薄弱的一个环节)有专门的章节进行讲解,本书对所有涉及的主题均是在解决实际问题的背景下加以解释。
|
目錄:
|
译者序
原书前言
第1章 引言:成为独角兽 1
1.1 数据科学家不仅仅是高薪统计人员 2
1.2 本书的内容是怎样组织的 2
1.3 如何使用本书 3
1.4 无论如何,为什么一切都在Python中 3
1.5 示例代码及数据集 3
1.6 最后的话 4
第Ⅰ部分 必须掌握的基础素材
第2章 数据科学路线图 6
2.1 解决问题 7
2.2 理解数据:基本问题 8
2.3 理解数据:数据整理 9
2.4 理解数据:探索性分析 9
2.5 提取特征 10
2.6 模型 10
2.7 呈现结果 11
2.8 部署代码 11
2.9 迭代 12
2.10 术语 12
第3章 编程语言 13
3.1 为什么使用编程语言,有无其他选项 13
3.2 数据科学编程语言综述 14
3.2.1 Python语言 14
3.2.2 R语言 14
3.2.3 MATLAB和Octave 14
3.2.4 SAS 15
3.2.5 Scala 15
3.3 Python语言速成班 15
3.3.1 版本注解 15
3.3.2 “hello world”脚本 16
3.3.3 更为复杂的脚本 17
3.3.4 数据类型 19
3.4 字符串 19
3.4.1 注释与文档注释 21
3.4.2 复杂数据类型 21
3.4.3 列表 22
3.4.4 字符串与列表 22
3.4.5 元组 23
3.4.6 字典 24
3.4.7 集合 24
3.5 定义函数 24
3.5.1 循环与控制结构 25
3.5.2 一些关键函数 26
3.5.3 异常处理 27
3.5.4 导入库 27
3.5.5 类及对象 27
3.5.6 可哈希与不可哈希类型 28
3.6 Python语言技术库 29
3.6.1 数据帧 29
3.6.2 序列 30
3.6.3 连接与分组 32
3.7 其他Python语言资源 33
3.8 延伸阅读 33
3.9 术语 34
第4章 数据预处理:字符串操作、正则表达式和数据清理 36
4.1 世界上最糟糕的数据集 36
4.2 如何识别问题 37
4.3 数据内容问题 37
4.3.1 重复条目 37
4.3.2 单实体的多个条目 37
4.3.3 丢失缺失值 38
4.3.4 NULL 38
4.3.5 巨大异常值 38
4.3.6 过期数据 39
4.3.7 人造数据 39
4.3.8 非正规空格 39
4.4 格式化问题 39
4.4.1 不同行列之间的不规则格式化 39
4.4.2 额外的空白 39
4.4.3 不规则大小写 40
4.4.4 不一致分隔符 40
4.4.5 不规则NULL格式 40
4.4.6 非法字符 40
4.4.7 奇怪或不兼容的时间类型 40
4.4.8 操作系统不兼容 41
4.4.9 错误的软件版本 41
4.5 格式化脚本实例 42
4.6 正则表达式 43
4.6.1 正则表达式语法 43
4.7 数据科学战壕中的生活 46
4.8 术语 47
第5章 可视化与简单度量 48
5.1 关于Python语言可视化工具的说明 48
5.2 示例代码 49
5.3 饼图 49
5.4 柱状图 51
5.5 直方图 53
5.6 均值、标准差、中位数和分位数 55
5.7 箱式图 56
5.8 散点图 57
5.9 对数轴线散点图 59
5.10 散点阵列图 61
5.11 热力图 62
5.12 相关性 63
5.13 Anscombe四重奏与数字极限 64
5.14 时间序列 65
5.15 延伸阅读 68
5.16 术语 69
第6章 机器学习概要 70
6.1 历史背景 71
6.2 监督与无监督学习 71
6.3 训练数据、测试数据和过拟合 72
6.4 延伸阅读 72
6.5 术语 73
第7章 插曲:特征提取思路 74
7.1 标准特征 74
7.2 有关分组的特征 75
7.3 预览更复杂的特征 75
7.4 定义待预测功能 75
第8章 机器学习分类 77
8.1 什么是分类器,用它可以做什么 77
8.2 一些实用的关注点 78
8.3 二分类与多分类 78
8.4 实例脚本 79
8.5 特定分类器 80
8.5.1 决策树 80
8.5.2 随机森林 82
8.5.3 集成分类器 83
8.5.4 支持向量机 83
8.5.5 逻辑回归 85
8.5.6 回归 87
8.5.7 朴素贝叶斯分类器 88
8.5.8 神经网络 89
8.6 评价分类器 90
8.6.1 混淆矩阵 91
8.6.2 ROC曲线 91
8.6.3 ROC曲线之下的面积 93
8.7 选择分类阈值 93
8.7.1 其他性能测量 94
8.7.2 升力曲线 94
8.8 延伸阅读 94
8.9 术语 95
第9章 技术交流与文档化 96
9.1 指导原则 96
9.1.1 了解观众 96
9.1.2 说明其重要性 97
9.1.3 使其具体化 97
9.1.4 一张图片胜过千言万语 98
9.1.5 不要对自己的技术知识感到骄傲 98
9.1.6 使其看起来美观 98
9.2 幻灯片 99
9.2.1 C.R.A.P设计原则 99
9.2.2 一些提示和经验法则 101
9.3 书面报告 102
9.4 演示:有用的技巧 103
9.5 代码文档 104
9.6 延伸阅读 105
9.7 术语 105
第Ⅱ部分 仍需要知道的事情
第10章 无监督学习:聚类与降维 108
10.1 维数灾难 108
10.2 实例:“特征脸”降维 110
10.3 主成分分析与因子分析 112
10.4 Skree图与维度的理解 113
10.5 因子分析 114
10.6 PCA的局限性 114
10.7 聚类 115
10.7.1 聚类簇的实际评估 115
10.7.2 k均值聚类 116
10.7.3 高斯混合模型 117
10.7.4 合成聚类 118
10.7.5 聚类质量评价 118
10.7.6 轮廓分数 118
10.7.7 兰德指数与调整兰德指数 120
10.7.8 互信息 120
10.8 延伸阅读 121
10.9 术语 121
第11章 回归 1
|
內容試閱:
|
原书前言
本书是为解决问题而编写的。在我面试的数据科学职位中的那些具有纯正数学背景的人中,大多数都无法编写一个计算斐波那契数的简单脚本(如果读者不熟悉斐波那契数,这只需要大约5行代码)。另一方面,雇主倾向于将数据科学家视为神秘的巫师或二手车销售人员,而当数据科学家被认为无法编写基本的脚本时,后一种印象就尤为深刻!这些问题反映了所有各方对数据科学是什么(或不是什么)以及从业者需要什么样的技能存在根本误解。
当我初涉数据科学时,也存在同样的问题。多年的物理学科训练使我擅长以抽象理论来解决问题,而在其中缺乏常识或灵活性。幸运的是,我知道如何编码(得益于在Google公司的实习),这让我一瘸一拐地抓住了重要的实用技能和思维模式。
离开学术界后,我为多种类型的公司做过数据科学咨询,包括针对小型初创企业进行的网络流量分析、财富100巨头的制造优化以及介于两者之间的方方面面。要解决的问题总是独一无二的,但解决这些问题所需的技能却出奇一致。它们是计算机编程、数学和商业思维的折衷组合。这些技能很少在一个人身上找到,但实际上可以被任何人学习而获得。
一些面试经历在我脑海中浮现而出。有位候选人聪明且知识渊博,但这次面试痛苦而又清楚地表明他们对数据科学家的日常工作毫不知晓。当候选人开始为浪费您的时间而道歉时,作为面试官又能够做什么呢?我们最后开设了1h的速成课程,讲述了他们缺失的知识内容,以及他们如何填补他们的知识空白。他们在面试之后,学习了他们所需要的东西,现在已是成功的数据科学家。
我写本书的目的是通过将数据科学的各种技能凝练成一本手册来帮助这样的求职者,其关注点还是实用性:对于需要速成或在紧迫的截止日期前解决问题的人来说本书是理想的选择。在教育系统还没有赶上这个令人兴奋的新领域的需求之前,希望本书能填补空白。
Field Cady
2016年9月
华盛顿州雷德蒙德
|
|