新書推薦:
《
化妆品学原理
》
售價:HK$
55.8
《
万千教育学前·与幼儿一起解决问题:捕捉幼儿园一日生活中的教育契机
》
售價:HK$
47.0
《
爱你,是我做过最好的事
》
售價:HK$
55.8
《
史铁生:听风八百遍,才知是人间(2)
》
售價:HK$
55.8
《
量子网络的构建与应用
》
售價:HK$
109.8
《
拍电影的热知识:126部影片里的创作技巧(全彩插图版)
》
售價:HK$
109.8
《
大唐名城:长安风华冠天下
》
售價:HK$
87.4
《
情绪传染(当代西方社会心理学名著译丛)
》
售價:HK$
88.5
|
內容簡介: |
本书引导读者从数据科学基本概念出发,全面了解数据科学相关知识,掌握数据科学中数据处理的流程和方法。本书在理论上突出可读性和完整性,力求兼具一定的广度和深度;在实践上强调对常用技术工具的操作性,力求体现数据科学应用的多样性和代表性。全书共12章,可分为三大部分:第1、2章是数据科学概述部分;第3~6章是数据科学理论基础和重点工具部分;第7~12章是数据科学全流程的技术与方法部分(包括数据采集、数据存储与管理、数据可视化、数据分析、数据安全与伦理,以及数据科学的应用与案例)。登录华信教育资源网(www.hxedu.com.cn)可下载本书涉及的案例与示例的全部代码和数据集,以及各章PPT和教学大纲等资料。本书可作为高等院校数据科学相关专业的教学用书,也可作为数据科学相关研究从业人员的参考用书。
|
關於作者: |
薛薇,工学硕士,经济学博士,中国人民大学应用统计学科研究中心研究员,中国人民大学统计学院副教授。主要研究领域:机器学习和文本挖掘、复杂网络建模等。关注统计和数据挖掘算法及软件应用。涉足企业客户终身价值测算,基于文本挖掘的热点事件主题提取和分类,金融、贸易等复杂网络动态建模等方面。主要代表性教材:《SPSS统计分析方法及应用》《R语言数据挖掘方法及应用》《R语言:大数据分析中的统计方法及应用》《SPSS Modeler数据挖掘方法及应用》《数据科学概论——从概念到应用》等。
|
目錄:
|
目录 第1章 数据与信息概述11.1 数据的概念、特征和作用11.1.1 数据的概念11.1.2 数据的特征21.1.3 数据的作用31.2 数据的尺度与类型31.2.1 定性数据和定量数据41.2.2 离散数据和连续数据51.2.3 结构化数据和非结构化数据51.3 数据的表格化81.3.1 个体数据的表格化81.3.2 批量汇总数据的表格化91.3.3 统计指标111.4 数据的数字化121.4.1 二进制与数字化121.4.2 文本的数字化131.4.3 数字的数字化151.4.4 多媒体的数字化171.4.5 数字化转型与数字化经济181.5 信息与信息熵191.5.1 信息熵:不确定性的度量191.5.2 信息增益:不确定性减少的度量20 第2章 数据科学概述222.1 数据科学的科学观222.1.1 从科学高度看数据科学222.1.2 通过案例初识数据科学232.2 数据科学概念252.2.1 数据科学产生的重大技术背景252.2.2 数据科学产生的典型应用背景252.2.3 数据科学的定义272.3 历史观察:探讨数据科学的发展历程272.3.1 古代:从结绳记事到阿拉伯数字272.3.2 古典:政治算术和国势学292.3.3 近代:随机现象、概率论与数理统计292.3.4 现代:抽样与推断统计312.3.5 计算机时代:技术革命带来的繁荣322.3.6 大数据时代:奠定数据科学基础332.4 数据世界:探讨数据科学的对象372.4.1 数据世界和数据科学372.4.2 数据世界和数字孪生382.5 DIKW模型:探讨数据科学中的若干基本概念392.5.1 DIKW模型392.5.2 从DIKW模型看数据科学412.6 维恩图:探讨数据科学的学科交叉性422.6.1 文献中的数据科学维恩图422.6.2 数据科学学科交叉性的总结432.7 从数据到模型:探讨数据科学的一般方法452.7.1 反问题的方法452.7.2 数据驱动的方法462.7.3 模型化的方法472.8 数据处理流程:探讨数据科学方法论532.8.1 传统理念下的数据处理方法论532.8.2 计算机时代的数据处理方法论542.8.3 大数据时代的数据处理方法论562.9 三维视角:总览数据科学582.9.1 从三维视角看数据科学582.9.2 理论方法维度582.9.3 处理流程维度602.9.4 应用领域维度60 第3章 数据科学中的计算机基础613.1 计算机系统概述613.1.1 计算机的发展623.1.2 计算机的种类623.2 计算机硬件633.2.1 计算机硬件的组成633.2.2 计算机硬件的工作原理643.3 计算机软件653.3.1 操作系统653.3.2 计算机语言663.3.3 应用软件683.4 计算机网络683.4.1 局域网、广域网和因特网693.4.2 计算机网络的通信协议713.5 计算机应用的技术模式723.5.1 主机/终端模式723.5.2 客户机/服务器模式733.5.3 浏览器/服务器模式743.5.4 云计算模式753.5.5 对等模式783.6 计算机应用793.6.1 科学计算793.6.2 数据处理与大数据803.6.3 人工智能813.6.4 过程控制85 第4章 数据科学中的数学与统计学基础864.1 微积分与数据科学应用874.1.1 微积分的产生背景874.1.2 微积分的基本思想方法884.1.3 梯度下降法及数据科学应用示例904.2 线性代数与数据科学应用934.2.1 向量与向量空间及应用示例934.2.2 矩阵与线性变换及应用示例954.2.3 特征值与奇异值及数据科学应用示例994.3 统计学与数据科学应用1034.3.1 描述统计要点1044.3.2 概率与概率分布要点1074.3.3 推断统计和多元统计分析要点1084.3.4 贝叶斯思维在数据科学中的应用1094.4 集合论与数据科学的应用1134.4.1 集合论与罗素悖论1134.4.2 粗糙集与数据科学应用示例1154.5 图论与数据科学的应用1204.5.1 欧拉和哥尼斯堡七桥问题1204.5.2 图论的发展沿革1214.5.3 图论与数据科学应用示例122 第5章 数据科学中的SQL基础1255.1 SQL概述1255.1.1 SQL的优点1255.1.2 MySQL和SQL入门1275.2 SQL的数据定义和应用1305.2.1 SQL数据定义语句1315.2.2 SQL数据定义应用1335.3 SQL的数据操纵和应用1375.3.1 SQL数据操纵语句1375.3.2 SQL数据操纵应用1375.4 SQL的数据查询1395.4.1 SELECT语句的简单应用1395.4.2 SELECT语句的进阶应用1455.4.3 SELECT语句的其他应用1505.5 MySQL的系统管理1515.5.1 MySQL的用户管理1515.5.2 MySQL的权限管理1525.5.3 MySQL的事务管理1535.5.4 MySQL的文件存储和日志管理1555.5.5 MySQL的客户端数据库管理工具Navicat158 第6章 数据科学中的Python基础1606.1 Python概述1606.1.1 Python的特点1606.1.2 Python的安装和启动1616.1.3 第一个Python程序与帮助1626.2 Python基础1646.2.1 Python的基本数据类型和组织1646.2.2 Python的程序结构和流程控制1696.2.3 异常处理结构1736.3 Python语言进阶1766.3.1 面向对象程序设计1766.3.2 模块与包1776.3.3 Python综合:chaos混沌态1786.4 NumPy入门1816.4.1 NumPy数组的创建1826.4.2 NumPy数组的访问1856.4.3 NumPy数组的计算1866.5 Pandas入门1906.5.1 Pandas的数据组织1916.5.2 Pandas的数据加工处理1946.6 Matplotlib入门1966.6.1 Matplotlib的基本绘图1966.6.2 Matplotlib的参数配置1986.6.3 Matplotlib的子图设置2006.6.4 Matplotlib的常见统计图2016.7 Python综合应用示例:对空气质量监测数据的分析2066.7.1 空气质量数据的预处理2076.7.2 空气质量数据的基本分析2096.7.3 空气质量数据的可视化212 第7章 数据采集2177.1 传统数据采集方式和技术2187.1.1 普查和统计报表制度2187.1.2 抽样调查和问卷调查2207.1.3 观察法和实验法2217.1.4 传统数据采集技术2247.2 互联网数据采集2267.2.1 互联网数据采集概述2277.2.2 网站运营数据库和数据分析及采集2277.2.3 网页埋点和数据采集2297.2.4 开放数据库和数据采集2317.2.5 搜索引擎和数据采集2337.2.6 网页爬虫和数据采集2367.3 物联网数据采集2407.3.1 物联网数据采集概述2407.3.2 传感器和数据采集2417.3.3 卫星通信和数据采集2427.3.4 射频识别技术、条形码和数据采集2447.4 数据采集与人工智能2457.4.1 数据标注与数据采集2467.4.2 文本数据采集和挖掘2487.4.3 图像数据采集和识别249 第8章 数据存储与管理2518.1 数据文件和数据库系统2518.1.1 数据文件2518.1.2 数据库系统的概念2548.1.3 关系型数据库系统和联机事务处理2558.1.4 数据库索引技术2578.2 数据仓库系统2608.2.1 数据仓库的概念2608.2.2 数据仓库系统的基本结构2618.2.3 联机分析处理2648.2.4 知识发现与商业智能2668.3 数据库系统的技术发展2688.3.1 并行数据库技术2698.3.2 分布式数据库技术2718.3.3 NoSQL数据库系统和NewSQL数据库系统2728.4 Hadoop大数据系统2758.4.1 什么是Hadoop2758.4.2 HDFS2768.4.3 MapReduce计算框架2798.4.4 Hadoop大数据生态系统2808.5 Spark大数据系统2868.5.1 什么是Spark2878.5.2 Spark大数据生态系统2888.5.3 Spark大数据平台databricks应用2908.6 Flink大数据系统2948.6.1 流数据2948.6.2 Flink大数据生态系统2978.7 数据湖系统3008.7.1 什么是数据湖系统3008.7.2 数据湖系统的基本功能3018.7.3 典型的数据湖系统302 第9章 数据可视化3059.1 数据可视化概述3059.1.1 数据可视化起源和发展3059.1.2 数据可视化元素3079.1.3 数据可视化步骤和原则3089.2 数据可视化一般方法3099.2.1 电子地图及地图图表3099.2.2 高维数据的可视化展现3129.3 数据可视化实现和Tableau应用3159.3.1 数据可视化实现方式3169.3.2 Tableau及其应用3179.4 数据可视化的新发展3259.4.1 计算机图形学3269.4.2 虚拟现实及相关技术3279.4.3 增强现实技术329 第10章 数据分析33210.1 数据分析方法、目标及软件工具33210.1.1 数据分析方法33210.1.2 数据分析目标33710.1.3 数据分析软件工具:sklearn简介33810.2 数据预处理34010.2.1 数据标准化处理34010.2.2 缺失值处理34210.2.3 特征选择与特征提取34410.3 经典聚类算法34710.3.1 聚类分析概述34710.3.2 层次聚类34910.3.3 K-均值聚类35110.3.4 DBSCAN聚类35310.3.5 聚类分析应用实例35510.4 数据预测:经典统计方法36010.4.1 数据预测中的一般问题36010.4.2 一般线性回归分析36210.4.3 二项逻辑回归分析36510.4.4 数据预测应用实例36710.5 数据预测:经典机器学习方法3
|
|