新書推薦:
《
养育不好惹的小孩
》
售價:HK$
77.3
《
加加美高浩的手部绘画技法 II
》
售價:HK$
89.4
《
卡特里娜(“同一颗星球”丛书)
》
售價:HK$
87.4
《
伟大民族:从路易十五到拿破仑的法国史(方尖碑)
》
售價:HK$
188.2
《
古今“书画同源”论辨——中国书法与中国绘画的关系问题兼中国画笔墨研究
》
售價:HK$
132.2
《
《日本文学史序说》讲演录
》
售價:HK$
72.8
《
无尽的海洋:美国海事探险与大众文化(1815—1860)
》
售價:HK$
99.7
《
治盗之道:清代盗律的古今之辨
》
售價:HK$
122.1
編輯推薦:
近些年来,越来越多的社会科学领域学者应用社会调查的方法来探讨中国政治、经济、社会发展过程中的理论和实践问题。但是在社会调查的数据采集过程中,由于各种原因而无法获得某个样本的任何一项回答或者无法获得样本对某个或某些个问题的回答的情况越来越多,前者称为单元无回答单元无应答,后者称为项目无回答题目无应答。由无回答引起的数据缺失对于后期的数据分析造成很大的影响,为此,在使用统计分析方法进行描述和推断之前,需要考虑缺失值的处理问题。
对于缺失值的处理有多种方法,其中多重插补multiple imputation是近些年来*为广泛接受的一种方法。
內容簡介:
简单地说,多重插补就是给每个缺失单元插补上多个值。主要包括插补、分析、综合三大步骤。对于多重插补,通常会有如下一系列疑问:
1. 一个缺失的单元为什么可以给出多个插补值?
2. 这些插补值是怎么计算来的?
3. 既然要插补多个值,那么需要插补多少个比较合适?
4. 插补后的数据集该怎么用?
5. 什么情况下可以用多重插补?
6. 怎样借助统计软件来做多重插补?简单地说,多重插补就是给每个缺失单元插补上多个值。主要包括插补、分析、综合三大步骤。对于多重插补,通常会有如下一系列疑问:
1.一个缺失的单元为什么可以给出多个插补值?
2.这些插补值是怎么计算来的?
3.既然要插补多个值,那么需要插补多少个比较合适?
4.插补后的数据集该怎么用?
5.什么情况下可以用多重插补?
6.怎样借助统计软件来做多重插补?
《缺失数据的多重插补:应用案例与软件操作》这本书的主要目的就在于借助实例来解答这些问题。本书包括三个部分,在*部分主要介绍多重插补的基本原理和方法、步骤;第二部分则借助4篇精心挑选出来的文章,通过对文章的评析来进一步解答有关多重插补方法的细节问题和相应的注意事项;第三部分则讲解和示例如何用SPSS、STATA这两种统计软件来实现多重插补。
關於作者:
严洁(女),北京大学政府管理学院副教授,政治学定量研究方向博士生导师。主要从事社会科学定量研究方法研究。兼任北京大学中国国情研究中心副主任、北京大学中国社会科学调查中心执行团队负责人。自1995年以来设计并组织实施了近百项大规模抽样调查。作为主要执行者参与了4波《世界价值观调查-中国》,4波《中国家庭追踪调查》,2波《世界精神健康调查-中国》等世界知名大型抽样调查。与沈明明教授、Pierre F. Landry教授共同创立了GPS辅助区域抽样方法。在《社会学研究》、《社会》等核心刊物上发表多篇文章。曾主持国家自然科学基金项目并行数据与数据质量管理,并作为主要参与者参与了多项国家社科基金项目。
目錄 :
导言 社会调查、无回答与缺失数据
第1章 删除法和单一插补法
1.1删除法
1.1.1 列表删除
1.1.2 成对删除
1.2单一插补法
1.2.1 均值插补
1.2.2回归插补
1.2.3 热平台插补
1.2.4 冷平台插补
1.2.5 LOCF与BOCF法
第2章 多重插补法概述
2.1多重插补的基本原理
2.1.1 什么是多重插补?
2.1.2 为什么一个缺失单元可以有多个插补值?
2.1.3 缺失类型
2.1.4 多重插补的方法
2.1.5 进行多少次插补才有效?
2.1.6 多个插补值怎样使用?
2.1.7 什么情况下用多重插补?
2.2 多重插补的发展简史
2.2.1 起始阶段(1977-1987年)
2.2.2 第二阶段(1988-1997年)
2.2.3 第三阶段(1998年至今)
第3章 多重插补的方法、步骤
3.1准备插补变量
3.1.1初步设定分析模型
3.1.2初选插补模型的变量
3.2检验和确定插补模型
3.2.1选择插补方法
3.2.2变量转换
3.2.3多重共线性诊断
3.2.4确定插补次数
3.2.5执行多重插补,并诊断插补模型
3.3 多重插补后的统计分析
3.3.1 插补后进行简单随机抽样下的统计分析
3.3.2 插补后进行复杂抽样下的统计分析
3.4 小结
第4章 应用案例分析
4.1政治学应用案例
4.2教育学应用案例
4.3经济学应用案例
4.4管理学应用案例
第5章 使用SPSS、STATA软件做多重插补
5.1使用SPSS软件做多重插补
5.2使用STATA软件做多重插补
5.2.1 多重插补前的准备工作
5.2.2 多重插补
5.2.3 多重插补后的统计分析
5.3 SPSS、STATA、SAS、R软件做多重插补的异同
参考文献
內容試閱 :
1.什么是无回答
无回答是指在数据采集过程中,由于各种原因而无法获得某个样本的任何一项回答或者无法获得样本对某个或某些个问题的回答的情况,前者称为单元无回答(unit nonresponse),后者称为项目无回答(item nonresponse)。
单元无回答包括无法接触到样本单位(no contact),拒访(refusal),无能力回答(incapacity)等几种情况。根据美国民意调查研究协会(The American Association for Public Opinion Research)确定的电话调查、入户调查、邮寄问卷调查回答率的计算标准中的相关定义(APPOR,2011):无法接触到样本包括这样一些情况:(a)不能进入这个建筑物;(b)住户内没有人;(c)受访人不在或者找不到。判断一个样本是否属于无法接触到样本,研究者必须确定样本单位是一个非空的、有符合资格的受访人居住的、并且没有接触到的住户成员是可完成的这三个必要条件。拒访包括住户单位或者住户内的成员拒绝访问的情况,有时也包括采访中断的情况。无能力回答则包括受访人尽管符合被采访的资格,而且他她也愿意接受访问,但是由于语言或者身体、精神不适等原因没有能力完成访问的情况。
以上这几种情况占单元无回答总数的比例因调查内容和调查方式而不同。概率抽样调查相对于非概率抽样调查会遇到较多的单元无回答的情况。在多数概率抽样调查中,无能力回答(例如:身体、语言障碍,不识字等)的情况相对较少,无法接触到样本单位的情况较多。近些年,在中国城市范围内,如果进行以个人为样本单位的概率抽样调查,并且以居民的户籍资料为抽样框的话,那么无法接触到样本单位的比例会比较高,主要原因在于中国社会中处于流动中的人群正在扩大,人户分离的情况越来越多。这些人多数人因无法联系上而成为单元无回答的样本。拒访的比例受调查方式(例如:入户调查和电话调查)、问卷内容(例如:敏感性问题)、调查地点(例如:城市和农村)、采访员素质以及被调查人群的特征等诸多方面的影响。在抽样调查中,如何降低拒访率一直是调查者所必须关注的问题。
项目无回答一般包括不知道(dont know)、拒绝回答(refuse to answer)、没有观点(no opinion) 、不适用(no applicable)、没有答案(no answer)等多种情况。其中,不知道、拒绝回答、没有观点比较容易理解,都是受访人给出的直接的答案。不适用通常是因为问卷中的跳问而自动赋值的,例如,对于询问受访人是否参加了工会这道题,如果是从事农业生产的受访人,就应该属于不适用回答这道题目的情况,该题目会被跳过去,系统自动产生的数值就是代表不适用。没有答案通常是指那些应该回答而没有回答的情况,例如,有可能是访问员漏问了,也有可能询问之后忘记记录答案。
2.什么是缺失值
缺失值(missing value)简单地概括就是缺失的观测值。缺失值的型态有两种(吴明隆,2010),一为系统自定义的缺失值,二为使用者自定义的缺失值。
所谓系统自定义的缺失值,是指本来就不适用,并且也没有采集到观测数据的情形,在社会调查中通常发生在一些应该进行跳问的题目中,例如,需要询问职级的时候,对于从事农业生产的人,就不再询问职级了,那么在职级的变量中,凡是回答从事农业生产的样本,就会由系统自定义为缺失值。在本书中称之为不适用,对于这种情形导致的缺失值,不用进行插补或其他处理,因为在分析多变量之间关系的时候,这些样本在某种情况下不适于纳入分析,例如,分析职级对人们工作满意度的影响,那些从事农业生产的样本不应该被纳入分析。
第二类是研究者自定义的缺失值,是指本来已经采集到了数据,但是这个数据根据研究者的判断被定义为缺失值。例如,在一次调查中,对于职业变量,受访人回答不知道,研究者根据一些条件最终将其定义为缺失值;也有一种情况是合理的一些值,但是研究者认为这些值属于特异个案,不满足其研究需求,也会将其定义为缺失值,例如,在询问受访人个人一个月的文化消费时,如果有1个样本回答20万元,研究者可能就会将其定义为缺失值。
对于那些需要研究者来自定义的缺失值,研究者首先要进行判断工作。即,哪些值应该或需要被定义为缺失值。这些值里面,最常见的就是项目无回答。在项目无回答中,没有答案通常是由于访员漏问、漏记或者造成的,一般情况下都属于缺失值。
但是不知道、拒绝回答、没有观点则需要根据题目本身的含义、研究者的测量目标和受访人的实际情况而定,很难简单地制定统一的判定标准。例如,当询问受访人是否满意现在的生活时,受访人应该有能力或者有信息帮助他能够回答,如果选择了没有观点,则可以视为缺失值。但是当问到受访人对于政府应该规定个人收入的最高限额这种说法的态度时,如果选择了没有观点,则可以视为有效回答,因为他提供了有效的信息,可能真的是没有任何观点。
对于知识、信息类的题目,不知道通常是有效的答案,会参与统计分析的过程,例如:询问政治知识的题目您知道美国现任总统是谁吗?,如果回答不知道,则可以视为有效回答,这部分人要作为一类人来进行统计分析,而不能直接视作缺失值。
在项目无回答的几种类型中,受访人回答不知道的情况通常相对比较多一些,因此,如果把不知道视为缺失值的话,更有可能对样本估计产生影响,但是缺失值的比例到多大时会成为问题,目前还没有一个标准,要依据研究目的、研究内容,以及缺失值的分布特征而定。有些学者认为,通常情况下,小于5%的缺失值应该不会产生什么问题(Gilljam and Granberg,1993)。
如果缺失值存在,研究者必须首先对缺失值进行处理,然后才能进行统计分析。