《命令行中的数据科学》 - [荷] 詹森斯[Jeroen Janssens] 著；王晓伟 - Meg Book Store - 香港.大書城

	登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台( 0 )　\|　在線留言板　 \|　付款方式　 \|　運費計算　 \|　聯絡我們　 \|　幫助中心　\|　加入書簽
		會員登入新用戶登記

HOME

新書上架

暢銷書架

好書推介

會員書架精選

2023年度TOP

臺灣用戶

品種：超過100萬種各類書籍/音像和精品，正品正價，放心網購，悭钱省心

服務：香港／台灣／澳門／海外

送貨：速遞／郵局／服務站

新書上架：簡體書繁體書
暢銷書架：簡體書繁體書
好書推介：簡體書繁體書

五月出版：大陸書台灣書
四月出版：大陸書台灣書
三月出版：大陸書台灣書
二月出版：大陸書台灣書
一月出版：大陸書台灣書
12月出版：大陸書台灣書
11月出版：大陸書台灣書
十月出版：大陸書台灣書
九月出版：大陸書台灣書
八月出版：大陸書台灣書
七月出版：大陸書台灣書
六月出版：大陸書台灣書
五月出版：大陸書台灣書
四月出版：大陸書台灣書
三月出版：大陸書台灣書

『簡體書』命令行中的数据科学

書城自編碼： 2565557
分類：簡體書→大陸圖書→計算機/網絡→數據庫
作者： [荷] 詹森斯[Jeroen Janssens] 著；王晓伟
國際書號(ISBN)： 9787115391681
出版社：人民邮电出版社
出版日期： 2015-06-01
版次： 1 印次： 1
頁數/字數： 169/
書度/開本： 16开釘裝：平装

售價：HK$ 90.7

我要買件

** 我創建的書架 **
未登入.

新書推薦：

彼美淑令：北朝女性的个体生命史

《彼美淑令：北朝女性的个体生命史》
售價：HK$ 82.8

旧纸边上

《旧纸边上》
售價：HK$ 78.2

奥匈帝国命运三部曲：曙光乍现

《奥匈帝国命运三部曲：曙光乍现》
售價：HK$ 89.7

偷偷恋慕

《偷偷恋慕》
售價：HK$ 53.8

我，不适应

《我，不适应》
售價：HK$ 48.3

德意志精神：101个德国名人/大家小书译馆贝克通识文库

《德意志精神：101个德国名人/大家小书译馆贝克通识文库》
售價：HK$ 56.4

凯恩斯、拉斯基、哈耶克：经济思想如何影响世界

《凯恩斯、拉斯基、哈耶克：经济思想如何影响世界》
售價：HK$ 113.9

《骗局》
售價：HK$ 55.2

建議一齊購買：

+

HK$ 127.7
《 Stata数据统计分析教程（Stata入门必备书籍，全面、系统讲解软件的基础知识、数据访问及管理等内容，并配有大量来源于实践的案例）》

+

HK$ 72.2
《煮酒论科学》

+

HK$ 127.7
《学习响应式设计》

+

HK$ 109.2
《图解基础设施设计模式》

+

HK$ 90.7
《 C程序设计新思维》

編輯推薦：

大数据时代，数据科学研究与分析日益重要。本书独树一帜，教你利用灵活的命令行工具成为高效多产的数据科学家。
为此，作者开发了数据科学工具箱，一个包含80多个命令行工具的安装简单的虚拟环境，能在Windows、OS X和Linux操作系统上运行。你将学会如何结合使用这些小而强大的命令行工具，快速地获取、清洗、探索和建模数据。
通过阅读本书，你会明白为什么命令行是一种灵活、可伸缩、易扩展的技术。即使你已经能够使用Python或R得心应手地处理数据，利用命令行也将大大改进你的数据科学工作流。
通过本书你将学会：
从网站、API、数据库和电子表格中获取数据
对纯文本、CSV、HTMLXML和JSON格式数据进行清洗
探索数据，计算描述性统计信息，进行可视化呈现
管理数据科学工作流
使用单行命令和已有的Python或R代码创建可重用的命令行工具
实现数据密集管道的并行化和分布化
使用降维、聚类、回归和分类算法对数据进行建模

內容簡介：

本书集实用性和先进性于一身，为数据分析人员使用命令行这个灵活的工具提供了重要参考。作者讲解了众多实用的命令行工具，以及如何使用它们高效地获取、清洗、探索和建模数据。无论你使用Windows、OS X，还是Linux，都可以安装包含80多个命令行工具的“数据科学工具箱”，迅速建立自己的数据分析环境。无论你是否已经习惯于使用Python或R语言，都能够通过本书体会到使用命令行的快捷、灵活与伸缩自如。

關於作者：

Jeroen Janssens
爱思唯尔（世界领先的科技及医学出版公司）首席数据科学家，曾是纽约YPlan公司高级数据科学家。专门从事机器学习、异常检测和数据可视化。在荷兰马斯特里赫特大学获得人工智能硕士学位，在荷兰蒂尔堡大学获得机器学习博士学位。他热衷于创建数据科学的开源工具，个人网站是http:jeroenjanssens.com。
王晓伟（译）
毕业于国防科学技术大学，获计算机科学与技术专业博士学位。研究兴趣为海量数据管理与挖掘。
刘峰（译）
百度LBS位置大数据部资深研发工程师，新加坡南洋理工大学计算机工程系博士，研究领域包括机器学习、神经网络、数据挖掘等。2010年加入百度，主要从事大数据分析和挖掘方面的工作，近年来专注于网络定位、智能交通等LBS大数据的挖掘和机器学习应用。

目錄：

目录
前言 XIII
第1　章简介　1
1.1　概述　1
1.2　数据科学就是OSEMN　2
1.2.1　数据获取　2
1.2.2　数据清洗　2
1.2.3　数据探索　3
1.2.4　数据建模　3
1.2.5　数据解释　3
1.3　插入的几章　4
1.4　什么是命令行　4
1.5　为什么用命令行做数据科学工作　6
1.5.1　命令行的灵活性　6
1.5.2　命令行可增强　6
1.5.3　命令行可扩展　7
1.5.4　命令行可扩充　7
1.5.5　命令行无处不在　7
1.6　一个现实用例　8
1.7　延伸阅读　11
第2　章入门指南　13
2.1　概述　13
2.2　设置数据科学工具箱　13
2.2.1　步骤1：下载和安装VirtualBox　14
2.2.2　步骤2：下载和安装Vagrant　14
2.2.3　步骤3：下载并启动数据科学工具箱　14
2.2.4　步骤4：登录（Linux 和Mac OS X）　16
2.2.5　步骤4：登录（微软Windows）　16
2.2.6　步骤5：关闭或重启　16
2.3　必要的概念和工具　17
2.3.1　环境　17
2.3.2　运行命令行工具　18
2.3.3　五类命令行工具　19
2.3.4　命令行工具的组合　21
2.3.5　输入和输出重定向　22
2.3.6　处理文件　23
2.3.7　寻求帮助　24
2.4　延伸阅读　26
第3　章数据获取　27
3.1　概述　27
3.2　将本地文件复制到数据科学工具箱　28
3.2.1　本地数据科学工具箱　28
3.2.2　远程数据科学工具箱　28
3.3　解压缩文件　29
3.4　微软Excel 电子表格的转换　30
3.5　查询关系数据库　32
3.6　从互联网下载　33
3.7　调用Web API　35
3.8　延伸阅读　36
第4　章创建可重用的命令行工具　37
4.1　概述　38
4.2　将单行转变为shell 脚本　38
4.2.1　步骤1：复制和粘贴　39
4.2.2　步骤2：添加执行权限　40
4.2.3　步骤3：定义shebang　41
4.2.4　步骤4：删除固定的输入　42
4.2.5　步骤5：参数化　42
4.2.6　步骤6：扩展PATH　43
4.3　用Python 和R 创建命令行工具　44
4.3.1　移植shell 脚本　45
4.3.2　处理来自标准输入的流数据　46
4.4　延伸阅读　47
第5　章数据清洗　49
5.1　概述　50
5.2　纯文本的常见清洗操作　50
5.2.1　行过滤　50
5.2.2　值提取　54
5.2.3　值替换和删除　55
5.3　处理CSV　56
5.3.1　主体、头部和列　56
5.3.2　对CSV 执行SQL 查询　60
5.4　处理HTMLXML 和JSON　61
5.5　CSV 的常见清洗操作　65
5.5.1　列的提取和重排序　65
5.5.2　行过滤　66
5.5.3　列合并　67
5.5.4　多个CSV 文件的合并　70
5.6　延伸阅读　73
第6　章管理数据工作流　75
6.1　概述　76
6.2　Drake 简介　76
6.3　Drake 的安装　76
6.4　获取古腾堡计划中下载最多的电子书　78
6.5　所有工作流都从单个步骤开始　79
6.6　具体情况具体对待　81
6.7　重新构建具体目标　82
6.8　讨论　83
6.9　延伸阅读　83
第7　章数据探索　85
7.1　概述　85
7.2　检查数据及其属性　86
7.2.1　确定有无数据头　86
7.2.2　检查所有数据　86
7.2.3　特征名称和数据类型　87
7.2.4　唯一标识、连续变量和因子　89
7.3　计算描述性统计信息　90
7.3.1　使用csvstat　90
7.3.2　在命令行中通过Rio 使用R　92
7.4　生成可视化图形　95
7.4.1　介绍Gunplot 和feedgnuplot　95
7.4.2　介绍ggplot2　97
7.4.3　直方图　99
7.4.4　条形图　101
7.4.5　密度图　102
7.4.6　箱线图　103
7.4.7　散点图　103
7.4.8　折线图　105
7.4.9　总结　106
7.5　延伸阅读　106
第8　章并行管道　107
8.1　概述　108
8.2　串行处理　108
8.2.1　对数字进行遍历　108
8.2.2　对行进行遍历　109
8.2.3　对文件进行遍历　110
8.3　并行处理　111
8.3.1　GNU Parallel 介绍　112
8.3.2　指定输入　113
8.3.3　控制并发任务的个数　114
8.3.4　记录日志和输出　115
8.3.5　创建并行工具　116
8.4　分布式处理　117
8.4.1　获得运行中的AWS EC2 实例列表　117
8.4.2　在远程机器上运行命令　118
8.4.3　在远程机器间分发本地数据　119
8.4.4　在远程机器上处理文件　120
8.5　讨论　123
8.6　延伸阅读　123
第9　章数据建模　125
9.1　概述　126
9.2　更多的酒，来吧！　126
9.3　用Tapkee 降维　129
9.3.1　介绍Tapkee　130
9.3.2　安装Tapkee　130
9.3.3　线性和非线性映射　130
9.4　用Weka 聚类　132
9.4.1　介绍Weka　132
9.4.2　在命令行里改进Weka　132
9.4.3　在CSV 和ARFF 格式之间转换　136
9.4.4　比较三种聚类算法　136
9.5　通过SciKit-Learn Laboratory 进行回归　139
9.5.1　准备数据　139
9.5.2　运行实验　139
9.5.3　解析结果　140
9.6　用BigML 分类　141
9.6.1　生成均衡的训练和测试数据集　141
9.6.2　调用API　143
9.6.3　检查结果　143
9.6.4　小结　144
9.7　延伸阅读　144
第10　章总结　145
10.1　让我们回顾一下145
10.2　三条建议　146
10.2.1　有耐心　146
10.2.2　有所创新　146
10.2.3　肯于实践　147
10.3　接下来做什么　147
10.3.1　API　147
10.3.2　shell 编程　147
10.3.3　Python、R 和SQL　147
10.3.4　数据解释　148
10.4　联系方式　148
附录A　命令行工具列表　149
附录B　参考文献　167
作者介绍　169
封面介绍　169

書城介紹　 |　合作申請　|　索要書目　 |　新手入門　|　聯絡方式　 |　幫助中心　|　找書說明　 |　送貨方式　|　付款方式 香港用户　 |　台灣用户　|　大陸用户　|　海外用户

megBook.com.hk

Copyright © 2013 - 2024 （香港）大書城有限公司　 All Rights Reserved.