登入帳戶  | 訂單查詢  | 購物車/收銀台( 0 ) | 在線留言板  | 付款方式  | 運費計算  | 聯絡我們  | 幫助中心 |  加入書簽
會員登入 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類瀏覽雜誌 臺灣用戶
品種:超過100萬種各類書籍/音像和精品,正品正價,放心網購,悭钱省心 服務:香港台灣澳門海外 送貨:速遞郵局服務站

新書上架簡體書 繁體書
暢銷書架簡體書 繁體書
好書推介簡體書 繁體書

五月出版:大陸書 台灣書
四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書
12月出版:大陸書 台灣書
11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書
三月出版:大陸書 台灣書

『簡體書』大数据分析:理论、方法及应用

書城自編碼: 3749326
分類:簡體書→大陸圖書→計算機/網絡數據庫
作者: 史蒂文·S. 斯基纳[Steven S. Skiena]
國際書號(ISBN): 9787111703471
出版社: 机械工业出版社
出版日期: 2022-05-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:HK$ 161.3

我要買

 

** 我創建的書架 **
未登入.


新書推薦:
有形有色的100款甜品主题衍纸
《 有形有色的100款甜品主题衍纸 》

售價:HK$ 67.9
丝绸之路与汉唐文学的关系
《 丝绸之路与汉唐文学的关系 》

售價:HK$ 148.1
大唐名将 : 兵家四势龙虎榜
《 大唐名将 : 兵家四势龙虎榜 》

售價:HK$ 114.8
西方社会学理论的逻辑
《 西方社会学理论的逻辑 》

售價:HK$ 424.4
八旗词史
《 八旗词史 》

售價:HK$ 124.2
中西餐合璧菜:中国和加拿大
《 中西餐合璧菜:中国和加拿大 》

售價:HK$ 158.7
剪纸里的民间故事绘本·年的传说
《 剪纸里的民间故事绘本·年的传说 》

售價:HK$ 40.3
三国一百年
《 三国一百年 》

售價:HK$ 181.7

 

編輯推薦:
本书对迅速兴起的数据科学跨学科领域提供必要的介绍,重点介绍构建用于收集、分析和解释数据的系统所需的关键技能,以及成为优秀数据科学家的基本原则。“正确地做简单的事情”,帮助读者发展数学直觉,用少的数学推导说明关键概念。本书使用计算机科学家自然的方法突出统计推理的核心价值,不依赖任何特定的编程语言或数据分析工具套件,而是侧重于对重要设计原则的深入讨论。本书特色:·包含“实战故事”,为数据科学如何应用于现实世界提供参考。 ·强调“错误的开始”,揭示某些方法失败的微妙原因。 ·提供“课后拓展”,强调每一章中需要特别注意的一些概念。 ·包括“练习”,为读者自学提供广泛的习题和项目。 ·“Kaggle挑战”让读者挑战现实世界中的问题。本书对迅速兴起的数据科学跨学科领域提供必要的介绍,重点介绍构建用于收集、分析和解释数据的系统所需的关键技能,以及成为优秀数据科学家的基本原则。“正确地做简单的事情”,帮助读者发展数学直觉,用少的数学推导说明关键概念。本书使用计算机科学家自然的方法突出统计推理的核心价值,不依赖任何特定的编程语言或数据分析工具套件,而是侧重于对重要设计原则的深入讨论。本书特色:·包含“实
內容簡介:
本书由算法领域的知名专家Steven Skiena教授撰写,重点介绍了收集、分析和解释数据所需的技能和原理。作者由浅入深地介绍了数据科学的概念、所需的数学基础、数据的整理清洗方法、数据分析方法(统计分析、可视化、数学模型、线性逻辑回归、机器学习算法等)以及学习大数据分析的意义。作者结合应用领域的大量数据分析案例,以解释大数据分析所需技能与原理,帮助者快速理解和掌握大数据分析的理论与方法,也将这些技能的实际应用方式展现得淋漓尽致,具有很强的可操作性。
關於作者:
史蒂文·S. 斯基纳(Steven S.Skiena)博士是石溪大学的杰出教授,研究方向是数据科学、自然语言处理和算法。由于对本科教学工作有杰出贡献,他曾获得IEEE计算机科学与工程本科教学奖。他还撰写了6本书,包括知名的The Algorithm Design Manual、Programming Challenges: The Programming Contest Training Manual。
目錄
译者序前言第1章 什么是数据科学11.1 计算机科学、数据科学和真正的科学11.2 从数据中提出有趣的问题31.2.1 棒球百科全书31.2.2 互联网电影数据库61.2.3 Google Ngrams71.2.4 纽约出租车记录91.3 数据的属性111.3.1 结构化与非结构化数据111.3.2 定量数据与类别数据111.3.3 大数据与小数据121.4 分类与回归121.5 关于数据科学的电视节目:The Quant Shop131.6 关于实战故事151.7 实战故事:回答正确的问题161.8 章节注释171.9 练习17第2章 数学基础202.1 概率202.1.1 概率与统计212.1.2 复合事件与独立事件222.1.3 条件概率232.1.4 概率分布232.2 描述性统计252.2.1 中心性度量252.2.2 变异性度量262.2.3 解释方差272.2.4 描述分布292.3 相关性分析292.3.1 相关系数:皮尔逊和斯皮尔曼秩302.3.2 相关的强弱与显著性312.3.3 相关性并不意味着因果关系332.3.4 用自相关检测周期性342.4 对数352.4.1 对数与乘法概率352.4.2 对数和比率352.4.3 对数与正规化偏态分布362.5 实战故事:契合设计师基因372.6 章节注释392.7 练习39第3章 数据整理423.1 数据科学语言423.1.1 notebook环境的重要性443.1.2 标准数据格式453.2 数据收集473.2.1 搜索473.2.2 爬取493.2.3 网络日志503.3 数据清洗503.3.1 错误与伪影513.3.2 数据兼容性523.3.3 处理缺失值563.3.4 离群值检测573.4 实战故事:打败市场583.5 众包593.5.1 一便士的实验593.5.2 什么时候有群体智慧603.5.3 聚合机制613.5.4 众包服务623.5.5 游戏化653.6 章节注释663.7 练习66第4章 得分和排名694.1 体重指数704.2 开发评分系统724.2.1 黄金标准和代理724.2.2 排名与得分724.2.3 识别良好的评分函数744.3 Z得分和归一化754.4 高级排名技术764.4.1 Elo排名764.4.2 合并排名784.4.3 基于有向图的排名804.4.4 PageRank804.5 实战故事:Clyde的复仇814.6 阿罗不可能性定理834.7 实战故事:谁更大844.8 章节注释874.9 练习87第5章 统计分析895.1 统计分布905.1.1 二项分布905.1.2 正态分布915.1.3 正态分布的含义935.1.4 泊松分布935.1.5 幂律分布955.2 从分布中采样975.3 统计显著性995.3.1 显著性的意义1005.3.2 t检验:比较总体均值1015.3.3 Kolmogorov-Smirnov检验1025.3.4 Bonferroni校正1045.3.5 错误发现率1045.4 实战故事:发现青春之泉1055.5 置换检验与p值1065.5.1 产生随机排列1085.5.2 迪马吉奥的连胜纪录1095.6 贝叶斯定理1105.7 章节注释1115.8 练习111第6章 数据可视化1146.1 探索性数据分析1156.1.1 面对新的数据集1156.1.2 汇总统计量和Anscombe四重线1176.1.3 可视化工具1196.2 发展可视化美学1196.2.1 化数据墨水比率1206.2.2 小化谎言因子1216.2.3 限度地减少图表垃圾1226.2.4 恰当的缩放和标注1236.2.5 有效使用颜色和阴影1246.2.6 重复的力量1256.3 图表类型1256.3.1 表格数据1276.3.2 点状图和折线图1286.3.3 散点图1316.3.4 条形图和饼图1336.3.5 直方图1356.3.6 数据地图1376.4 出色的可视化1396.4.1 Marey的火车时刻表1396.4.2 斯诺的霍乱地图1406.4.3 纽约气象年1416.5 读图1416.5.1 模糊分布1416.5.2 过度解释方差1426.6 交互式可视化1436.7 实战故事:TextMap1446.8 章节注释1466.9 练习146第7章 数学模型1497.1 建模哲学1497.1.1 奥卡姆剃刀原理1497.1.2 权衡偏差与方差1507.1.3 Nate Silver会怎么做1507.2 模型分类1527.2.1 线性模型与非线性模型1527.2.2 黑盒与描述性模型1527.2.3 原理与数据驱动模型1537.2.4 随机模型与确定性模型1547.2.5 平面模型与分层模型1557.3 基准模型1557.3.1 分类的基准模型1557.3.2 价值预测的基准模型1567.4 评估模型1577.4.1 评估分类器1587.4.2 受试者工作特征曲线1617.4.3 评估多类系统1627.4.4 评估价值预测模型1647.5 评估环境1657.5.1 数据卫生评估1677.5.2 放大小型评估集1677.6 实战故事:100%准确1697.7 模拟模型1707.8 实战故事:经过计算的赌注1707.9 章节注释1
內容試閱
为了了解我们周围的世界,我们需要从环境中获取和分析数据。近,一些技术的发展为我们提供了新的机会,使我们能够将数据分析知识应用到比以往任何时候都更大的挑战中。计算机存储容量呈指数级增长。确实,存储已经变得如此廉价,以至于几乎不太可能需要计算机系统刻意删除某些数据。传感设备越来越多地监控所有可以观察到的东西:视频流、社交媒体互动以及任何移动的东西的位置。云计算使我们能够利用大量机器来处理这些数据。事实上,每次当你在谷歌上进行搜索的时候,都会调用上百台计算机,对你之前的所有搜索活动仔细检查,以决定下一个推荐给你的广告。所有这一切的结果就是数据科学的诞生。数据科学是一个致力于从海量信息中获取价值的新领域。作为一门学科,数据科学融合了统计学、计算机科学和机器学习,同时它也正在逐渐显露出自己独有的特点。这本书是对数据科学的一个介绍,重点介绍构建用于收集、分析和解释数据的系统所需的知识和原则。作为一名研究人员和讲师,我的专业经验使我确信,数据科学的一个主要挑战是它实际上要比看起来微妙得多。任何一名曾经计算过自己平均成绩(GPA)的学生都可以说自己掌握了基本的统计知识,就像绘制一个简单的散点图可以让你在简历中增加数据可视化的经历一样。但想要有意义地分析和解释数据则需要专业的技术和知识。有太多人对这些基础知识掌握得十分糟糕,这促使我撰写这本书。致读者我的另一本书The Algorithm Design Manual [Ski08]自1997年首次出版以来受到了很多读者的喜爱,我对此感到十分欣慰。该书被认为是使用算法技术来解决实践中经常遇到的问题的独特指南。而现在呈现在你面前的这本书虽然在内容上与上一本截然不同,但是写作目的却是相似的。在这里,我特别强调以下几个基本原则,它们对于成为一名优秀的数据科学家至关重要:重视做好简单的事情:数据科学不是一门十分高深的学科。学生和实践者经常在技术的道路上迷失了方向,他们一味地追求的机器学习方法、的开源软件库或炫目的可视化技术。然而,数据科学的核心在于正确地做一些简单的事情—理解与应用相关的领域,清洗和集成相关的数据源,并将你的结果清晰地呈现给其他人。然而,简单并不意味着容易。事实上,提出正确的问题并感知自己是否正在朝着正确的答案和可行的方案迈进,需要相当敏锐的洞察力和丰富的经验。我在本书中克制住了深入探讨清洗数据这种技术性问题的冲动,因为它是可以教授的。市面上有很多其他书籍涵盖了机器学习算法或统计假设检验的复杂性。而我在本书中的任务是为分析数据中真正重要的事情打下基础。培养数学直觉:数据科学建立在数学基础之上,特别是统计学和线性代数。从直观的角度理解这些材料是很重要的—为什么要开发这些概念,它们为什么有用,以及使用它们的时机。我展示了一些线性代数中的运算,呈现了当你操作矩阵时矩阵会发生什么情况的图片,并且通过示例解释了一些统计概念。我的目标是让读者培养出这种直觉。但我在书中尽量减少对于这些知识的相关数学表达。实际上,在这本书中我只给出一个形式证明—一个其中的相关定理显然不当的不正确证明。这里的寓意不是说数学上的严谨不重要,因为它显然很重要,但是真正的严谨是在理解之后才可能实现的。像计算机科学家一样思考,但像统计学家一样行动:数据科学将计算机科学家、统计学家和领域专家联系成一个整体。但是每个团体都有自己独特的思维和行为风格,这些风格已深深烙印在其成员的灵魂之中。在这本书中,我强调了计算机科学家自然的方法,特别是关于数据的算法处理、机器学习的使用,以及数据规模的掌握。但我也试图传达统计推理的核心价值观:理解应用领域的必要性,对小领域的正确认识,对重要性的追求和对探索的渴望。没有任何一门学科能够揭示全部真理。好的数据科学家会整合多个领域的工具,而这本书力求提供一个相对中立的场所,在这里,对立的哲学可以一起推理。本书没有提及的内容也同样重要。我没有强调任何特定的语言或数据分析工具。相反,本书对重要的设计原理进行了高层次讨论。我试图在概念层面而不是技术层面上操作。本书的目标是让你尽可能快地朝着正确的方向前进,使用你认为便利的软件工具。致讲师这本书涵盖的内容足够为刚开始上“数据科学导论”这门课程的本科生和低年级研究生提供帮助。我希望读者至少完成了一门与编程相关的课程,并且掌握一些概率和统计方面的知识,当然,多多益善。我制作了一套完整的教学幻灯片,并上传到了http://www.data-manual.com上。项目和作业的数据资源也可用于帮助讲师。本书的教学特色包括:实战故事:为了更好地了解数据科学技术如何应用于现实世界,我收集了一些“实战故事”,或者我们处理实际问题的经验。这些故事的寓意在于,这些方法不仅是理论,而且是重要的工具,可以根据需要使用。错误的开始:大多数教科书将方法作为既成事实来呈现,模糊了设计方法所涉及的思想,以及其他方法失败的原因。实战故事说明了我对某些应用问题的推理过程,但我也将这些内容编入了核心材料。课后拓展:突出强调了每一章中需要特别注意的一些概念。练习:我提供了一系列的作业和课后习题。很多是传统的考试题,但也有不少实验挑战和少量学生在寻找工作时可能遇到的面试问题,而且对所有练习都进行了难度等级评定。我建立了解决方案Wiki而非直接给出答案,该解决方案Wiki将通过众包服务寻求所有偶数号习题的解答。有人告诉我,一个类似的系统和我的The Algorithm Design Manual产生了一致的解答。原则上我拒绝查看它们,所以请买家当心。Kaggle挑战:Kaggle(www.kaggle.com)为数据科学家提供了一个参与竞争的论坛,其特色是在引人入胜的数据集上挑战现实世界中的问题,并通过评分来评估你的模型相对于其他模型的表现。每章的练习包括三个相关的Kaggle挑战,可为读者做其他项目和调查带来灵感,也可以自学或作为数据源。数据科学电视:数据科学仍然神秘,甚至威胁到广大公众。The Quant Shop是一个业余的数据科学真人秀节目,学生小组可在这里处理各种各样的现实世界预测问题,并试图预测未来事件。请访问http://www.quant-shop.com。我们准备了8集30分钟的内容,每个内容围绕一个特定的现实世界预测问题。挑战包括在拍卖会上为艺术品定价、挑选环球小姐大赛的获胜者,以及预测名人的死亡时间。对于每一种情况,我们都观察学生小组会如何处理这个问题,并在他们建立预测模型时与他们一起学习。他们做出了预测,我们与他们一起观察这些预测是对还是错。在这本书中,The Quant Shop用于提供预测挑战的具体例子,从数据获取到评估,系统讨论数据科学建模过程。我希望你觉得它们很有趣,它们会鼓励你思考,让你接受建模挑战。章节注释:后,每章都会给出一个简短的注释,向读者指出主要的资源和其他参考。献词我聪明开朗的女儿Bonnie和Abby现在都已成年,这意味着她们处理统计数据的速度并不总是如我所愿。我将这本书献给她们,希望她们的分析能力有所提高,从而总是同意我的观点。我将这本书献给我美丽的妻子Renee,即使她不同意我的观点,终也会和我达成一致,并且一切迹象表明她十分爱我。致谢我要感谢的人太多了,可能有一些没有被提及。我会尽可能地将他们列举出来,但请那些我不小心遗漏的人对此表示谅解。首先,我感谢那些为我整理这本书做出具体贡献的人。Yeseul Lee曾担任该项目的学徒,在2016年夏季这段时间帮助处理图表、练习等。你会在本书几乎每一页上看到她的手工制作成果,我非常感谢她的帮助和奉献。Aakriti Mittal和Jack Zheng也参与了一些图的制作。上我2016级秋季“数据科学概论”课程(CSE519)的学生帮助修正了手稿,他们发现了很多需要修正的内容。我特别感谢Rebecca Siford,她提出了一百多条修正意见。几个数据科学的朋友帮我审阅了特定的章节,我感谢Anshul Gandhi、Yifan Hu、Klaus Mueller、Francesco Orabona、Andy Schwartz和Charles Ward在这里所做的努力。我感谢2015年秋季所有参与The Quant Shop节目的学生,他们的视频和建模工作成果显著。我特别感谢Jan(Dini)Diskin-Zimmerman,他的编辑工作远远超出了其职责范围。很高兴Springer的编辑Wayne Wheeler和Simon Rees能够一如既往地与我合作。我也感谢终将这本书呈现在你面前的所有生产和营销人员,包括Adrian Pieron和Annette Anlauf。一些练习是由同事原创的,或是受到其他资源的启发。几年后重建原始资源可能是一个挑战,但每个问题的记录(据我所知)都会出现在网站上。通过与其他人的合作,我了解到了很多关于数据科学的知识。这些人包括我的博士生,特别是Rami al-Rfou、Mikhail Bautin、Haochen Chen、Yanqing Chen、Vivek Kulkarni、Levon Lloyd、Andrew Mehler、Bryan Perozzi、Yingtao Tian、Junting Ye、Wenbin Zhang和博士后Charles Ward。我深深地记得这些年来我所有的Lydia项目硕士生,并提醒大家:个将其女儿命名为Lydia的人将获大奖,这项奖励至今仍然无人认领。我要感谢我的其他合作者提供的故事,包括Bruce Futcher、Justin Gardin、Arnout van de Rijt和Oleksii Starov。我记得General Sentiment/Canrock universe的所有成员,特别是Mark Fasciano,我和他分享了创业梦想,并体验了数据进入现实世界时的变化。我感谢在我2015~2016年公休假期间的雅虎实验室/研究部同事,正是在那段时间我构思了这本书的大部分内容。我特别感谢Amanda Stent,他让我在公司历史上特别困难的一年进入了雅虎。我从其他教过数据科学相关课程的人那里学到了宝贵的东西,包括Andrew Ng和Hans-Peter Pfister,并感谢他们的帮助。如果你有一个带10个参数的程序,那么你很可能还遗漏了一些参数。—Alan Perlis警告对于作者而言,无论存在什么不足,一般都要宽容地接受责备。但是我们并不认同这种观点。本书中的任何错误、不足或问题都可能是其他某个人的错,但我仍然很高兴知道哪些内容有问题,

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 大陸用户 | 海外用户
megBook.com.hk
Copyright © 2013 - 2024 (香港)大書城有限公司  All Rights Reserved.