新書推薦:
《
超加工人群:为什么有些食物让人一吃就停不下来
》
售價:HK$
99.7
《
历史的教训(浓缩《文明的故事》精华,总结历史教训的独特见解)
》
售價:HK$
62.7
《
不在场证明谜案(超绝CP陷入冤案!日本文坛超新星推理作家——辻堂梦代表作首次引进!)
》
售價:HK$
58.2
《
明式家具三十年经眼录
》
售價:HK$
524.2
《
敦煌写本文献学(增订本)
》
售價:HK$
221.8
《
耕读史
》
售價:HK$
109.8
《
地理计算与R语言 [英] 罗宾·洛夫莱斯 [德]雅纳·蒙乔 [波兰] 雅库布·诺沃萨德
》
售價:HK$
121.0
《
沈括的知识世界:一种闻见主义的实践(中华学术译丛)
》
售價:HK$
87.4
編輯推薦:
1. 这本书站在数据科学与社会科学的十字路口,教你利用数据方法增强科学洞察力;
2. 收录了大量多样化的案例,用每个人都能听懂的语言描述了一套测量世界的全新思维工具;
3. 这是一本社会科学家的跨界指南之书、数据科学家的素养提升之作。不论你是想了解大数据的10个共同特征,还是想理解大公司的道德伦理困境,这本书都值得反复翻阅;
4. 《科学》杂志、《福布斯》杂志赞誉有加。哈佛大学教授加里金,微软研究院首席研究员邓肯瓦茨,脸谱网数据科学家肖恩泰勒,北京师范大学系统科学学院教授、集智俱乐部创始人张江,鼎力推荐!
內容簡介:
我们已经见证了社交媒体、智能手机以及其他科技奇迹的诞生与进化,这些科技工具让我们能够以前所未见的规模和深度采集并处理有关人类行为的数据,从而为研究人类社会提供了一个全新的路径。这本书是一部里程碑式的作品,它将彻底改变下一代社会科学家和数据科学家探索世界的方式。
l 大数据的10个共同特征是什么?
l 如何通过数据预测美国总统大选的结果?
l 如何在短时间内对100万个星系进行分类?
l 大规模数据采集面临着怎样的道德伦理困境?
l 科技公司是否在监视我们的行为,数字时代是不是将我们带进了全景监狱呢?
我们已经见证了社交媒体、智能手机以及其他科技奇迹的诞生与进化,这些科技工具让我们能够以前所未见的规模和深度采集并处理有关人类行为的数据,从而为研究人类社会提供了一个全新的路径。这本书是一部里程碑式的作品,它将彻底改变下一代社会科学家和数据科学家探索世界的方式。
l 大数据的10个共同特征是什么?
l 如何通过数据预测美国总统大选的结果?
l 如何在短时间内对100万个星系进行分类?
l 大规模数据采集面临着怎样的道德伦理困境?
l 科技公司是否在监视我们的行为,数字时代是不是将我们带进了全景监狱呢?
在计算社会学这一新兴领域,作者阐述了数字革命如何扭转了社会科学家和数据科学家观察行为、提出问题、开展实验和进行大规模协作的方式,详细描述了大批真实的案例,并且划定了面临伦理挑战时需要遵循的4项原则。
这本书用全新的数据模式解锁了社会学。对社会科学家来说,它是一本跨界指南之书;对数据科学家来说,它是一本素养提升之作。
關於作者:
[美] 马修萨尔加尼克(Matthew J. Salganik)
普林斯顿大学社会学教授,同时任职于该校的信息技术政策中心、数据与机器学习中心等。《科学》杂志评价他是纯然的计算社会学家。他的研究方向是社会网络、计算社会学。他的研究曾被微软、脸谱网和谷歌资助,并被《纽约时报》《华尔街日报》《经济学人》《纽约客》等主流媒体报道,美国公共广播电台还专题报道过他的研究成果。
目錄 :
前言 VII
第 1 章简介
1.1 一处墨迹 003
1.2 欢迎来到数字时代 005
1.3 研究设计 009
1.4 本书的主题 010
1.5 本书梗概 013
第 2 章观察行为
2.1 简介 019
2.2 大数据 020
2.3 大数据的 10 个共同特征 023
2.3.1 海量性 024
2.3.2 持续性 028
2.3.3 不反应性 030
2.3.4 不完整性 031
2.3.5 难以获取 035
2.3.6 不具代表性 037
2.3.7 漂移 042
2.3.8 算法干扰 044
2.3.9 脏数据 046
2.3.10 敏感性 049
2.4 研究策略 051
2.4.1 计数 052
2.4.2 预测和临近预测 054
2.4.3 近似实验 059
2.5 结论 071
第 3 章提问
3.1 简介 077
3.2 提问与观察 080
3.3 调查误差总框架 081
3.3.1 代表性 084
3.3.2 测量 087
3.3.3 成本 092
3.4 向谁提问 092
3.5 提问的新方法 102
3.5.1 生态瞬时评估法 104
3.5.2 维基调查 107
3.5.3 游戏化 112
3.6 与大数据资源相结合的调查 114
3.6.1 丰富型提问 115
3.6.2 扩充型提问 121
3.7 结论 130
第 4 章开展实验
4.1 简介 133
4.2 什么是实验 136
4.3 实验的两个维度:实验室 实地以及模拟 数字 138
4.4 超越简单实验 145
4.4.1 效度 151
4.4.2 处理效应的异质性 156
4.4.3 原理 159
4.5 使实验成为现实 163
4.5.1 利用现有环境开展实验 165
4.5.2 创建自己的实验 170
4.5.3 创建自己的产品 174
4.5.4 与有能力的组织合作 175
4.6 建议 181
4.6.1 创造零可变成本数据 182
4.6.2 将道德伦理融入你的设计:替代、改进和减少 190
4.7 结论 196
第 5 章进行大规模协作
5.1 简介 201
5.2 人本计算 203
5.2.1 星系动物园 205
5.2.2 政治宣言的公众编码 212
5.2.3 结论 216
5.3 公开征集 218
5.3.1网飞奖 219
5.3.2蛋白质折叠游戏 222
5.3.3公众专利评审 225
5.3.4结论 228
5.4 分布式数据采集 231
5.4.1观鸟数据库 232
5.4.2照片城 235
5.4.3结论 238
5.5 设计你自己的大规模协作项目 241
5.5.1激励参与者 242
5.5.2利用异质性 243
5.5.3集中注意力 244
5.5.4允许惊喜 244
5.5.5合乎道德伦理 246
5.5.6最后的设计建议 247
5.6 结论 249
第 6 章道德伦理
6.1 简介 253
6.2 三个事例 256
6.2.1情绪感染项目 256
6.2.23T项目 258
6.2.3Encore项目 259
6.3 数字时代的不同 261
6.4 四项原则 267
6.4.1对人的尊重原则 268
6.4.2有利化原则 269
6.4.3公正原则 272
6.4.4对法律和公共利益的尊重原则 273
6.5 两种道德框架 276
6.6 困难面 278
6.6.1知情同意 278
6.6.2理解与管理信息化风险 282
6.6.3隐私权 291
6.6.4面对不确定性做出决策 295
6.7 实用技巧 299
6.7.1 机构审查委员会是底线,不是上线 299
6.7.2 换位思考 301
6.7.3 将研究伦理视作连续的而非离散的过程 302
6.8 结论 302
历史附录 304
第 7 章未来
7.1 展望 313
7.2 未来主题 313
7.2.1 现成品与定制物之间的融合 313
7.2.2 以参与者为中心的数据采集 315
7.2.3 研究设计中的道德伦理 316
7.3 回到开始 317
致谢 319
参考文献 327
內容試閱 :
前言
这本书源于2005年在哥伦比亚大学一个地下室中发生的事情。那时,我还是一名研究生,正在为最终的毕业论文做一项在线实验。有关这项实验的学术部分我将在第4章进行介绍,但现在,我将告诉你们一件我的毕业论文或其他任何论文都未涉及的事情。这件事从根本上改变了我对研究的看法。一天早晨,当我来到位于地下室的工作室时,我发现一夜之间竟有约100个来自巴西的人参与了我的实验。这一简单的经历对我产生了深远的影响。当时,我的几个朋友正醉心于传统的实验室实验。我知道他们必须很费心地有偿召集并指导人们来参与实验,如果一天能有10个人完成实验,就算是不错的进展了。但对我的在线实验来说,我在睡觉的同时,就有100个人参与了实验。也许,一边睡觉一边做研究听起来美好得令人难以置信,但这是事实。技术的变化,尤其是技术从模拟时代到数字时代的转变,意味着我们可以用新的方式搜集和分析社会数据。这本书就是关于如何利用这些新方式开展社会研究的。
这本书是写给那些想研究更多数据科学的社会科学家和想研究更多社会科学的数据科学家以及对这两个领域的结合感兴趣的人的。因此,这本书的目标受众自然就不仅限于学生和教授了。尽管我目前在普林斯顿大学任职,但之前也在政府部门(美国人口调查局和技术产业领域的微软研究院)工作过,因此我知道,在大学之外同样存在着很多令人兴奋的研究。因此,只要你觉得自己正在做的是社会研究,那么无论在何处就职或使用何种技术,你都可以参阅此书。
你可能已经注意到了,这本书的语言风格和许多其他的学术著作稍有不同。这其实是我特意做的一个改变。这本书的部分内容源于我从2007年起在普林斯顿大学的社会学系带领的一个计算社会学(Computational Social Science)研究生研讨班,因此我希望它能反映这个研讨班的一些活力和激情。具体而言,我希望这本书能够具备以下三个特点:有帮助的、面向未来的以及乐观的。
有帮助的:我的目标是写一本对你们有帮助的书。因此,我将以坦诚的态度、非正式的写作风格,通过实例阐述我的观点。我最想传达的是一种特定的思考社会研究的方式,而经验告诉我,传达这一思考方式的最好的方法就是采取非正式的写作风格并列举大量例子。此外,在本书的参考文献中,有一个部分叫拓展阅读,它旨在帮你过渡到有关我所介绍的多个主题的更加详细、更加专业的内容上。最后,我希望此书能对你们自己开展研究以及评估别人的研究有所帮助。
面向未来的:我希望这本书能帮助你利用现有的以及未来将出现的数字系统开展社会研究。我是从2004年开始做这类研究的,这期间数字系统发生了诸多变化,我坚信在你们的职业生涯中,你们也会感受到数字系统的许多变化。因此,要想让这本书以不变应万变,就要做到抽象。例如,这本书不会教你如何使用现有的推特应用程序界面(Twitter API),相反,它会教你如何受益于大数据资源(第2章)。这本书不会详细告诉你如何利用亚马逊土耳其机器人(Amazon Mechanical Turk,以下简称机器人MTurk)开展实验步骤,相反,它将教你如何设计和解读依赖于数字时代基础设施的实验(第4章)。通过采用这种抽象化的手法,我希望这本书能够成为一本主题适时、经得起时间考验的书。
乐观的:本书涉及两个群体社会科学家和数据科学家,他们有着截然不同的背景和兴趣。除了书中将要介绍的科学方面的差异以外,我还发现,这两个群体看待事物的态度也是不同的。数据科学家一般而言是满怀希望的,而社会科学家一般而言是更具批判性的。也就是说,同样是半杯水,数据科学家看到的是还有半杯水,而社会科学家看到的则是杯子有一半已经空了。在本书中,我将采取数据科学家的乐观态度。因此,在描述相关实例时,我将告诉你们在我看来这些例子的可取之处。当然,鉴于没有研究是完美的,我也会指出它们的问题所在,但我会尽力用乐观积极的方式指出。我不会为批判而批判,我的批判是为了能让你们设计出更好的研究。
我们仍处于数字时代社会研究的早期阶段,但我已经发现了一些普遍存在的误解,它们的普遍程度让我觉得有必要在前言中对其进行说明。就数据科学家而言,我发现他们有两个常见的误解。第一个是认为数据越多越有利于解决问题。但对社会研究来说,我的经验告诉我并不是这样的。事实上,对社会研究来说,好的数据似乎要比更多的数据更有帮助。第二个是数据科学家通常认为社会科学只不过是一堆围绕常识的花言巧语罢了。当然,作为一名社会科学家,更确切地说是社会学家,我不同意这样的观点。聪明的人长期以来一直在努力理解人类的行为,因此忽视这一努力所取得的成果似乎是不明智的。我希望通过这本书,以一种易于理解的方式和你们分享其中的一些成果。
就社会科学家而言,我发现他们也有两个常见的误解。第一个是有些社会科学家会因为少数不真实的数据而彻底否定使用数字时代的工具开展社会研究这一观念。如果你正在读这本书,那你可能已经读过许多平庸地或错误地(或两种方式都有)使用社交媒体数据的论文。我也读过。但是如果因为这些论文就得出结论,说数字时代的社会研究都是不好的,这将是一个严重的错误。事实上,你可能也读过许多平庸地或错误地使用调查数据的论文,但你并没有因此而否定所有使用调查数据的论文。这是因为你知道,也有使用调查数据并且做得很不错的研究。而我将通过这本书告诉你们,使用数字时代的工具并且做得很不错的研究也是有的。
我所发现的社会科学家的第二个常见误解是容易将现在和未来混淆。当我们对数字时代的社会研究,即我在本书中将探讨的研究,进行评估时,思考以下两个截然不同的问题至关重要:这类研究现在做得怎么样以及这类研究将来会做得怎么样。研究人员会被训练来回答第一个问题,但对这本书而言,我认为更重要的是第二个问题。也就是说,尽管数字时代的社会研究尚未做出巨大的、改变范式的贡献,但数字时代社会研究的进步速度快得惊人。因此,相比于其目前的发展水平,它的变化速度更让我感到兴奋不已。
尽管上一段似乎是在告诉你们,数字时代的社会研究可能会在未来的某个时间变得相当成功,但我的目标并不是向你们推销任何特定类型的研究。我个人并未持有推特(Twitter)、脸谱网(Facebook)、谷歌(Google)、微软(Microsoft)、苹果(Apple)或其他任何科技公司的股份。但是,为了做到充分披露,我应该告诉你们我曾在微软、谷歌和脸谱网工作过或是接受过其研究经费赞助。因此,在整本书中,我的目标是让自己做一个可信的叙述者,告诉你们所有可能的令人兴奋不已的新事物,同时引导你们避开一些我曾看到有人掉进去的陷阱(有的我自己也曾掉进去过)。
社会科学和数据科学的交叉学科有时会被称为计算社会学。有些人认为这是一个技术领域,但这本书并不是传统意义上的技术图书。例如,这本书的正文中并没有公式。之所以选择这样的方式,是因为我想呈现对数字时代社会研究的一个全面的看法,其中包括大数据资源、调查、实验、大规模协作和道德伦理。但事实证明,涵盖所有这些主题并提供每个主题中详细的技术细节是不可能的。相反,我会在本书参考文献中的拓展阅读里推荐更多的技术资料。换句话说,这本书不是为了教你如何做某种特定的计算,而是为了改变你对社会研究的思考方式而写的。