登入帳戶  | 訂單查詢  | 購物車/收銀台(0) | 在線留言板  | 付款方式  | 運費計算  | 聯絡我們  | 幫助中心 |  加入書簽
會員登入 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類瀏覽雜誌 臺灣用戶
品種:超過100萬種各類書籍/音像和精品,正品正價,放心網購,悭钱省心 服務:香港台灣澳門海外 送貨:速遞郵局服務站

新書上架簡體書 繁體書
暢銷書架簡體書 繁體書
好書推介簡體書 繁體書

十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書
12月出版:大陸書 台灣書
11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書

『簡體書』实用预测分析

書城自編碼: 3226057
分類:簡體書→大陸圖書→計算機/網絡计算机理论
作者: [美]拉尔夫·温特斯[Ralph Winters]
國際書號(ISBN): 9787111603351
出版社: 机械工业出版社
出版日期: 2018-07-01


書度/開本: 16开

售價:HK$ 126.4

我要買

 

** 我創建的書架 **
未登入.


新書推薦:
十一年夏至
《 十一年夏至 》

售價:HK$ 76.2
如何打造成功的商业赛事
《 如何打造成功的商业赛事 》

售價:HK$ 89.5
万千教育学前·透视学前儿童的发展:解析幼儿教师常问的那些问题
《 万千教育学前·透视学前儿童的发展:解析幼儿教师常问的那些问题 》

售價:HK$ 58.2
慈悲与玫瑰
《 慈悲与玫瑰 》

售價:HK$ 87.4
启蒙的辩证:哲学的片简(法兰克福学派哲学经典,批判理论重要文本)
《 启蒙的辩证:哲学的片简(法兰克福学派哲学经典,批判理论重要文本) 》

售價:HK$ 76.2
云中记
《 云中记 》

售價:HK$ 76.2
中国古代妇女生活(中国古代生活丛书)
《 中国古代妇女生活(中国古代生活丛书) 》

售價:HK$ 47.0
你的认知正在阻碍你
《 你的认知正在阻碍你 》

售價:HK$ 65.0

 

建議一齊購買:

+

HK$ 203.6
《鲜活的数据:数据可视化指南【数据可视化经典著作,创作信息图的》
+

HK$ 148.5
《应用预测建模》
+

HK$ 164.7
《数据驱动建模及科学计算——复杂系统和大数据处理方法》
+

HK$ 100.1
《认知计算与大数据分析》
編輯推薦:
本书是一本与众不同的预测分析书,从技术和概念的角度介绍了很多不同的主题,如分析方法、敏捷、元数据、SQL、抽样和生存分析等。书中首先简洁地讲述预测分析的发展历史及R安装基础知识,然后详细介绍预测分析建模的6个步骤,你将学习输入、清洗以及准备建模数据所需的技巧。作者还探讨了为什么协作非常重要,敏捷迭代建模循环如何提高你的成功率,使你能顺利开发并部署佳的模型,进而在云计算环境中进一步扩展你的技能,通过学习Databricks和SparkR,你将能够对海量的数据进行预测模型的开发。
通过阅读本书,你将:
?掌握如今业务上使用的核心预测分析算法
?学习实现一个成功的预测分析项目的6个步骤
?根据需求遴选正确的算法
?使用预测分析来研究医疗领域的问题
?实现预测分析来挽留和获得你的客户
?利用文本挖掘来理解非结构化数据
?在个人电脑或者SparkHadoop环境中开发模型
?为客户实现预测分析产品
內容簡介:
本书详细讲述了预测分析的原理、技术及实现,并深入讨论了大数据。重点着眼于掌握提高开发、实行预测分析所需的6项关键实用技能。本书还提供了来自市场、医疗和零售等行业的真实案例,有助于读者针对产品实现自己的预测分析。
關於作者:
作者简介
拉尔夫·温特斯(Ralph Winters)目前在一家医疗服务公司担任数据架构师。他已经给很多名列世界500强的大企业提供过自己在统计和分析方面的经验,包括金融、市场营销、保险、医疗和制药领域的企业。他的工作包括很多不同类型的预测分析项目,包括客户保留、反洗钱、客户之声文本挖掘分析,以及医疗风险和客户选择模型。
目錄
Contents 目录
译者序
关于作者
关于审校者
前言
第1章预测分析入门1
1.1许多行业中都有预测分析2
1.1.1市场营销中的预测分析2
1.1.2医疗中的预测分析2
1.1.3其他行业中的预测分析3
1.2技能和角色在预测分析中都很重要3
1.3预测分析软件4
1.3.1开源软件5
1.3.2闭源软件5
1.3.3和平共处5
1.4其他有用的工具5
1.4.1超越基础知识6
1.4.2数据分析研究6
1.4.3数据工程6
1.4.4管理7
1.4.5数据科学团队7
1.4.6看待预测分析的两种不同方式7
1.5R8
1.5.1CRAN8
1.5.2安装R语言8
1.5.3其他安装R语言的方法8
1.6预测分析项目是如何组织的9
1.7图形用户界面10
1.8RStudio入门11
1.8.1重新布局以保持和示例一致11
1.8.2部分重要面板的简要描述12
1.8.3创建新项目13
1.9R语言控制台14
1.10源代码窗口15
1.11第一个预测模型16
1.12第二个脚本18
1.12.1代码描述19
1.12.2predict函数20
1.12.3检验预测误差21
1.13 R语言包22
1.13.1stargazer包22
1.13.2安装stargazer包23
1.13.3保存工作24
1.14参考资料24
1.15本章小结24
第2章 建模过程25
2.1结构化方法的优点25
2.2分析过程方法26
2.2.1CRISP-DM和SEMMA27
2.2.2CRISP-DM和SEMMA的图表27
2.2.3敏捷过程28
2.2.4六西格玛和根本原因28
2.2.5是否需要数据抽样28
2.2.6使用所有数据29
2.2.7比较样本与群体29
2.3第一步:理解业务30
2.4第二步:理解数据36
2.4.1衡量尺度36
2.4.2单变量分析38
2.5第三步:数据准备43
2.6第四步:建模44
2.6.1具体模型说明45
2.6.2逻辑回归46
2.6.3支持向量机47
2.6.4决策树47
2.6.5降维技术51
2.6.6主成分51
2.6.7聚类52
2.6.8时间序列模型52
2.6.9朴素贝叶斯分类器53
2.6.10文本挖掘技术54
2.7第五步:评估57
2.7.1模型验证58
2.7.2曲线下面积59
2.7.3样本内和样本外测试、前进测试60
2.7.4训练测试验证数据集60
2.7.5时间序列验证61
2.7.6最佳冠军模型的基准测试61
2.7.7专家意见:人与机器61
2.7.8元分析61
2.7.9飞镖板方法61
2.8第六步:部署62
2.9参考资料62
2.10本章小结62
第3章 输入和探索数据64
3.1数据输入64
3.1.1文本文件输入65
3.1.2数据库表格66
3.1.3电子表格文件67
3.1.4XML和JSON数据67
3.1.5生成你自己的数据68
3.1.6处理大型文件的技巧68
3.1.7数据整理68
3.2连接数据69
3.2.1使用sqldf函数69
3.2.2生成数据70
3.2.3检查元数据71
3.2.4使用内部连接和外部连接来合并数据72
3.2.5识别有多个购买记录的成员73
3.2.6清除冗余记录74
3.3探索医院数据集74
3.3.1strdf函数的输出74
3.3.2View函数的输出75
3.3.3colnames函数75
3.3.4summary函数76
3.3.5在浏览器中打开文件77
3.3.6绘制分布图77
3.3.7变量的可视化绘图78
3.4转置数据帧80
3.5缺失值84
3.5.1建立缺失值测试数据集84
3.5.2缺失值的不同类型85
3.5.3纠正缺失值87
3.5.4使用替换过的值运行回归90
3.6替换分类变量91
3.7异常值91
3.7.1异常值为什么重要91
3.7.2探测异常值92
3.8数据转换96
3.8.1生成测试数据97
3.8.2Box-Cox转换97
3.9变量化简变量重要性98
3.9.1主成分分析法98
3.9.2全子集回归102
3.9.3变量重要性104
3.10参考资料106
3.11本章小结106
第4章 回归算法导论107
4.1监督学习模型和无监督学习模型108
4.1.1监督学习模型108
4.1.2无监督学习模型108
4.2回归技术109
4.3广义线性模型110
4.4逻辑回归110
4.4.1比率111
4.4.2逻辑回归系数111
4.4.3示例:在医疗中使用逻辑回归来预测疼痛阈值112
4.4.4GLM模型拟合114
4.4.5检验残差项115
4.4.6添加变量的分布图116
4.4.7p值及其效应量117
4.4.8p值及其影响范围118
4.4.9变量选择119
4.4.10交互121
4.4.11拟合优度统计量123
4.4.12置信区间和Wald统计124
4.4.13基本回归诊断图124
4.4.14分布图类型描述124
4.4.15拟合优度:Hosmer-Lemeshow检验126
4.4.16正则化127
4.4.17示例:ElasticNet128
4.4.18选择一个正确的Lambda128
4.4.19基于Lambda输出可能的系数129
4.5本章小结130
第5章决策树、聚类和SVM导论131
5.1决策树算法131
5.1.1决策树的优点131
5.1.2决策树的缺点132
5.1.3决策树的基本概念132
5.1.4扩展树132
5.1.5不纯度133
5.1.6控制树的增长134
5.1.7决策树算法的类型134
5.1.8检查目标变量135
5.1.9在rpart模型中使用公式符号135
5.1.10图的解释136
5.1.11输出决策树的文本版本137
5.1.12修剪138
5.1.13渲染决策树的其他选项139
5.2聚类分析140
5.2.1聚类分析应用于多种行业140
5.2.2什么是聚类140
5.2.3聚类的类型141
5.2.4k均值聚类算
內容試閱
Preface 前言这是另一类关于预测分析的书。我写这本书的初衷是为传统分析人员介绍一些使用开放源码工具的预测分析技术。
不过,我很快意识到,传统分析工具的某些特性可以使新一代数据科学家受益。我曾经在企业数据解决方案方面做了大量工作,我很有兴趣撰写一些不同类型的主题,如分析方法、敏捷、元数据、SQL分析和可重复的研究,这些研究在一些数据科学预测分析书中经常被忽略,但对分析项目的成功是至关重要的。
我还想写一些很少被提及的分析技术,这些技术超出了标准回归和分类任务的范围,例如使用生存分析来预测客户流失,使用购物篮分析作为推荐引擎。
由于基于云计算的解决方案已经有了很大的进展,我认为增加一些关于云分析(大数据)的内容很重要,所以我加入了一些在Spark环境中开发预测分析解决方案的章节。
本书的重点之一是触类旁通,我希望无论你的技术方向是什么,也无论你如何理解数据科学、预测分析、大数据,甚至是诸如预测这样的术语,都可以在这里找到适合自己需求的内容。
此外,作为数据科学团队的一部分,我要向领域专家们致敬。通常情况下,这些精通领域业务知识的分析师没有耀眼的头衔,但他们对于分析项目的成功至关重要。希望我讨论的一些话题能打动他们的心弦,让他们对预测分析的一些技术概念更感兴趣。
当Packt邀请我写一本关于预测分析的书时,我首先想到的是寻找一种优秀的开源语言,来弥合传统分析与当今数据科学家之间的鸿沟。我认真地考虑过这个问题,是因为每种语言在如何表达问题的解决方案方面都有细微的差别。然而,我决定最终不在意那些细节,因为预测分析这个概念不是依赖于任何一种编程语言的,而且编程语言的选择通常由个人偏好以及你所在的公司决定。
我最终选择了R语言,因为我的专业背景是统计学,我觉得R语言具有良好的统计学严谨性,现在它不但已经和SAS等适合的软件做了合理的整合,而且还与关系数据库系统以及Web协议有很好的整合。它还具有出色的绘图和可视化系统,以及用户贡献的许多好用的软件包,涵盖了大部分的统计和预测分析功能。
关于统计数据,我建议你尽可能多地学习相关知识。了解统计数据可以帮助你区分优良的模型与糟糕的模型,并通过了解基本概念—如中心倾向度量(平均值、中位数、众数)、假设检验、p值和效应大小—来帮助你识别不良数据中的许多问题。如果你了解数据统计,将不再仅仅以自动的方式运行封装好的软件,而是可以多少了解一些底层的运行机制。
R语言的一个缺点是它在内存中处理数据,因此在单个PC上使用时,软件会限制数据集的大小,使之处理不了更大的数据集。对于本书中使用的数据集,在单个PC上运行R程序来处理应该没有问题。 如果你有兴趣分析大数据,本书将用几章的篇幅讨论在云环境中的R和Spark,你可以在这些章中看到如何处理分布在许多不同计算机上的大型数据集。
谈到本书中使用的数据集,我不想使用那些你经常看到的、被人们反复分析的数据集。其中一些数据集的确非常适合用来演示技术,但我想要一些新的东西。然而,我没有看到多少我认为对本书有用的数据。有些数据来源不明,有些需要正式的使用许可,有些缺少好的数据字典。所以,在许多章节中,我最终使用R中的模拟技术生成自己的数据。我觉得这是一个不错的选择,因为借此机会我能够介绍一些可以在工作中使用的数据生成技术。
我使用的数据涵盖了广泛的范围,包括市场营销、零售和医疗保健应用。我本来希望能增加一些财务方面的预测分析用例,但时间不够用了。也许我会把这方面的内容留到另一本书中去讲!
本书主要内容第1章从介绍预测分析的发展历史开始,然后讨论预测分析从业人员的一些不同角色,并描述他们从事的行业。接下来讨论在PC上组织预测分析项目的方法,介绍R语言,并以简短的预测模型为例结束该章。
第2章讨论如何将预测模型的开发过程组织成几个阶段,每个阶段都有不同的目标,如探索和问题定义,最后是预测模型的实际开发。该章讨论两种重要的分析方法:CRISP-DM和SEMMA。在该章中贯穿了一些示例代码,以展示一些方法的核心思想,希望你不会感到枯燥。
第3章介绍可以将自己的输入数据引入到R程序中的各种方法。该章还讨论使用标准SQL函数和R dplyr包的各种数据预处理方法。没有输入数据?没问题。该章将展示如何使用R语言的wakefield包生成你自己的模拟数据。
第4章从对有监督算法和无监督算法的讨论开始。该章的其余部分集中在回归算法,它是一种代表性的有监督算法。你将了解如何解释回归算法的输出,如模型系数和残差图。该章甚至提供一个交互式游戏,利用交互测试,看看你是否能够辨别一系列的残差是不是随机的。
第5章重点讨论另外三种广泛使用的核心预测算法,而且把它们与回归结合起来,可用于解决许多(可能是大部分)预测分析问题。该章讨论的最后一个算法(支持向量机(SVM))通常用于诸如非结构化文本之类的高维数据,因此示例代码将附带使用一些客户投诉评论的文本挖掘技术。
第6章讨论一种称为生存分析的具体建模技术,并展

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 大陸用户 | 海外用户
megBook.com.hk
Copyright © 2013 - 2024 (香港)大書城有限公司  All Rights Reserved.