社会调查数据管理——基于Stata 14管理CGSS数据

978-7-115-42174-6
作者: 唐丽娜
译者:
编辑: 王峰松

图书目录:

详情

本书利用流行的统计软件Stata(2015年发布最新版Stata 14),实现从数据收集、管理、分析到发布的全流程管理。详细讲解问卷设计、抽样设计、执行方案、实地调查、数据录入、数据清洗、数据合并、数据存储、数据发布以及数据更新等各种和调查数据相关的技术和技巧。

图书摘要

版权信息

书名:社会调查数据管理——基于Stata 14管理CGSS数据

ISBN:978-7-115-42174-6

本书由人民邮电出版社发行数字版。版权所有,侵权必究。

您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。

我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。

如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。

• 著    唐丽娜

  责任编辑 王峰松

• 人民邮电出版社出版发行  北京市丰台区成寿寺路11号

  邮编 100164  电子邮件 315@ptpress.com.cn

  网址 http://www.ptpress.com.cn

• 读者服务热线:(010)81055410

  反盗版热线:(010)81055315


这是一本关于社会调查数据管理的实务操作手册,以国内第一个、综合性、长期性的调查数据——中国综合社会调查(CGSS)数据的管理为例,基于最新版的Stata 14软件,全面讲解了一个社会调查数据管理的完整周期,重点演示了社会调查数据管理工作中的重点和难点。

本书适合社会调查者、在校大学生、学者、研究者及其他和数据管理相关的从业者阅读参考。为方便读者学习,书中所有示例数据及命令都可以从人民邮电出版社异步社区网站下载。


数据是这个时代的脉搏,和石油、矿藏等一样也是一个国家重要的资源。在学术领域,数据密集型驱动的学术研究范式日益盛行,数据已经发展成为一种重要的研究基础。在社会科学研究中,实证研究的前提是质量可靠的数据。在整个数据生命周期中,会有不同主体的参与,比如,研究者通常既是数据的生产者也是使用者,政府、学校和科研机构是产生数据的经费支持来源,也是推动数据开放和数据共享的重要推手。不同主体在数据生命周期中扮演着不同的角色,但是,有一点是所有参与主体必须关注的焦点——数据管理,这也是本书作者的研究重点。

在社会科学领域,我国的实证研究起步较晚,“数据素养”有待提高,对数据的关注点几乎都聚焦在数据分析上。然而,数据采集和数据分析之间还有一座重要的桥梁,那就是数据管理。有过数据使用经历的人都知道,研究者或机构采集到的原始数据很难直接用于数据分析,需要对其进行一定的数据清理,如进行选取样本、选择变量、重新编码、插补缺失值、逻辑检验、基于原始变量创建研究所需的新变量、数据格式转换、数据形状转置等大量繁琐、复杂、耗时的工作,之后才能开始数据分析。对研究人员而言,这些和数据管理相关的工作往往会占据一项学术研究的一半甚至更多的时间。考察目前国内社会科学界几大旗舰项目发布的数据不难发现,我国的数据管理工作亟待改进和提高,几乎每个旗舰项目发布的数据在基本要素上都各有“特色”,即使在同一个项目数据的内部对同一个要素的操作都不统一、不规范,如数据中的变量名,有的用题号做变量名,有的用该变量对应的题目的英文缩写做变量名,还有的把题号和英文缩写合在一起做变量名,确立合适的社会科学数据管理标准迫在眉睫。

本书正是应这样的数据需求而生,作者唐丽娜博士长期以来一直从事社会科学数据的采集、清理、管理、分析和挖掘工作,积累了丰厚的经验,而且全程参与中国国家调查数据库的建设和维护,对数据生命周期的各个环节都有着自己独到的见解。这本书是她对自己多年和数据打交道的一个阶段性总结,也是她对国内社会调查数据管理的大胆探索。

国家是数据最大的生产者和使用者,数据管理更是一项国家战略,在数据开放和数据共享的大趋势下,建立规范、科学的数据管理变得愈发重要,而共享的前提是持续的、规范化的数据管理,否则结果只能是大量数据的无序集合而已。数据驱动型研究和数据导向型经济推动着社会各界对数据管理专业技术和专业人才的需要,我国在这方面仍处于起步、探索阶段,对涉及其中的主体和主体职责有待进一步的明确,社会调查数据的微观分享需要国家在宏观层面的政策支持和法律保护。

目前,国际上对此已经做出了很多有益探索并提供了大量可供借鉴的案例和经验,如英国早在2000年就通过了信息自由法,而且在2004年成立了全球第一个专门从事数据管理研究和探索的机构——数据管理中心(Data Curation Center),为英国的数据管理提供了很多成功的案例、实用的管理工具及必要的技术培训。美国的NSF、NIH不仅强制要求接受资助的研究人员提交项目数据,而且提供专项基金用于研究数据管理。我国目前的数据封闭独享意识仍然存在,数据交换和共享尚未得到广泛认可,这极大地抑制了数据的学术效用和社会效益。希望这本书的出版,能够为国内社会科学领域中的数据管理、数据开放和共享提供想象的空间和讨论的基础。

袁卫

中国人民大学统计系教授,中国国家调查数据库项目负责人


1972年美国芝加哥大学的国家民意调查中心(National Opinion Research Center, NORC)启动了综合社会调查项目(General Social Survey,GSS),旨在收集能够反映美国社会变迁及社会态度的数据,为政策制定者和学者提供一套清晰无偏的数据。迄今为止,该项目仍然是美国国家自然科学基金支持过的最大的社会调查项目,在美国对GSS数据的使用率仅低于美国人口普查数据,GSS数据的学术效应和社会效益已经形成气候,值得我们学习。

有感于中国改革开放以来,学术界想用数据来研究中国历史上的这一重大变迁,苦于没有数据可用,中国人民大学社会学系和中国香港科技大学多位志同道合的社会学家联合发起做中国自己的综合社会调查,定名为中国综合社会调查(Chinese General Social Survey,CGSS)。现在,CGSS是国内社会科学领域持续时间最长的一项社会调查,到目前为止,成功访问过来自中国大陆的102730名居民,收集到的有效居民数据是102730条,社区数据为2031条,积累了10年的数据集,为国内外的学者提供了宝贵的、无以复制的研究中国社会变迁和居民社会态度、社会行为的数据。

社会调查是一项基础研究,不同于应用研究,如果做不到专业严谨的研究和应用,调查的意义和效用则大大降低。社会调查数据的广泛应用离不开数据开放和数据共享的意识氛围,也需要全面系统的数据管理规范和标准。在我国学术界,社会调查特别是大型、随机抽样调查的起步相对较晚,受实证主义研究范式的影响,大部分学者和研究人员在做社会调查时,更关注用数据做实证分析,对数据本身的管理不够重视。纵观最近几年国内知名度较高的几个社会调查品牌项目会发现,每个调查项目发布的数据都或多或少存在这样、那样的问题,这些问题都起因于对数据的管理不当或不够,导致用户无法使用某些数据,或者能使用但用起来很费劲。在社会调查领域,长期以来数据的采集、管理、分析和挖掘都由同一机构或研究团队完成,现在这些工作也面临着专业化、精细化的发展,数据的采集、管理和分析可以分别由三支专业团队执行,方能确保数据的质量和长期效益。国内急需建立起一套对社会调查数据进行管理的标准、规范、流程,为数据的开放和共享提供数据标准和技术支持。

随着CGSS调查的推进和数据的积累,CGSS数据也面临着数据管理的困境和数据服务的难题,特别是当数据的使用范围和目标对象从当初的有限范围扩展到全社会范围内的数据使用者时,数据服务方面的各种问题也日益凸显。自2015年开始,CGSS项目组专门组织研究人员探索CGSS数据的管理规范,致力于提高CGSS数据服务。这本书只是CGSS数据管理起步阶段的一个小总结,希望国内会有更多、更深入的和社会数据管理有关的文章或书籍问世,为国内社会调查数据的推广和走向国际化提供更有价值的建议。

李路路

中国人民大学社会学系教授,长江学者,CGSS项目负责人


数据管理在数据的生命周期中是一个至关重要的方面,但是,在我国的社会科学研究中一直被忽视。长期以来,学界把实证量化研究方法的重点放在各种统计方法及模型上,出版了大量的书籍,也举办了大批的培训,但接下来遇到的问题是,当研究者们掌握了各种统计方法和技术后,发现自己学会的是屠龙术,但是无龙可屠,空有统计方法和技术,但缺乏可用来分析的数据。所以,近几年来,学术性社会调查兴起,国内各高校启动了多项覆盖经济与社会各个领域的、具有全国代表性的截面或追踪调查项目,产出了一批高质量的社会调查微观数据。但是,当研究者们终于获得了宝贵的数据时,却往往发现无从下手。这就如同菜谱上讲的是如何用洗净、切好、进行过预处理、符合要求的食材来做菜,但拿到手却是近似最初状态的蔬果肉蛋,大多数人就有点无所适从了。实际上,从实地阶段的数据采集到数据的分析与开发之间还有一个重要的中间环节,这就是数据管理。

数据管理的工作贯穿数据生命周期的全过程。进行实地数据采集前,就需要制定详尽的数据管理方案,调查问卷的设计与调查的执行需要与这个方案配合;完成实地调查后需要进行数据的录入(电子化)、编码、清洗、插补、转换、派生、建档等;当数据集及相关文档准备就绪后,还需要对其进行存储、发布、共享,并提供用户支持服务;而数据集本身也可做一个单元与其他的各种层次和类型的数据进行匹配、整合,如可以把CGSS2010的数据和2010年美国的GSS数据合并在一起,做国际比较分析,成为综合性研究资源的一个部分持续起作用;这些都是数据管理的内容。好的数据管理对于提高数据的投入产出率,延长数据的生命周期具有至关重要的作用。但是长期以来,数据管理一直是我国社会科学实证量化研究中的薄弱环节。正是由于对于调查数据管理的相对薄弱,才使得项目组内部对数据的分析与开发受到影响;而当数据开放之后,外部用户对于数据的使用则更是有诸多障碍。正是由于我国的社会调查数据在用户友好上做得非常欠缺,加上数据的开放共享不足,才造成数据的利用率较低,生命周期短暂。

数据管理的重要性一直被国际科学界所强调,美国国立卫生研究院(NIH)和美国国家科学基金(NSF)这两家美国最大的科学研究基金都把项目申请中的数据管理方案作为对项目申请书进行评价的重要方面。随着我国社会科学领域由数据驱动的实证量化研究的发展,对于微观调查数据的管理的重要性也逐渐被认识到,本书正是这一发展趋势的反映和重要标志。本书的作者唐丽娜博士长期以来作为主要成员参与了我国历时最长的全国性连续学术社会调查项目——“中国综合社会调查(CGSS)”的工作,同时也在我国第一个社会调查数据资源库——“中国国家调查数据库(CNSDA)”的建设和运行中发挥了重要作用。她对社会调查数据的产出到利用的全过程有着深刻的了解与把握,对于社会调查数据管理工作的各个方面有着丰富的经验。她的这部著作重在实用性与工具性,对于社会科学领域从事与数据相关研究工作的各类人员有着切实的帮助。这本书是作者长期以来在社会科学基础数据工作领域里无私奉献的一个阶段性总结,也是对我国社会调查研究这些年来所取得进展的一个阶段性汇报。

王卫东

中国人民大学中国调查与数据中心

2016年2月


机缘巧合,自2005年起就开始和调查及数据卯上了。坦白说,在这些方面,我从来没有接受过所谓的“科班”教育。但是,我一直在学习这方面的知识,也一直在实践这些知识。从一开始的“叶公好龙”,到后来的“爱不释手”,过程中充满了欢乐、恼恨、时不时的放弃、反复的质疑、失落、失望……基础由此得到了夯实,兴趣因此变得更加浓厚。

我不是“有意”要写这本书,于我而言,写一本关于调查和数据的书的念头由来已久,硬要说出个一二三来,那我认为:其一,数据作为一种生产力,值得现代社会的每个人都来了解和学习;其二,大众对调查和数据的认识存在种种误区,且这些误区既不利于大众,也不利于社会,更不利于国家;其三,目前国内相关书籍的编写方式过于“学术化”,或者说都更像是教科书,而不是科普书,可读性不足,不容易让人产生兴趣,还可能会导致感兴趣的人望而失趣。

那么,我写的这本书就能避免这些吗?我不敢说一定都能,但我想试试。我敢试试还是源于我的工作经验。理论上,我只有一年半的工作经验(截至写作之前,我在中国人民大学中国调查与数据中心以博士后的身份工作了一年半),但实际上这个中心自成立之日起,我就一直“浸染”其中。任何一个单位或公司在成立之初都会面临很多问题,中心也不例外。在五花八门的困难中,最大也最头疼的是人,特别是会管理数据的人。

鉴于种种考虑,最终决定招聘的标准是:品德过硬、对数据管理有兴趣、踏实肯学,对专业没有做任何限制。中心现在的员工在专业分布上也是“醉”了,如生物、文学、化学、法律、兽医、英语、国际关系、马克思主义、金融、国际贸易等。这样的专业分布好处是:所有员工进入中心时,起点几乎都是一样的,只要工作制度相对合理,那么就基本能够保证每个人在中心的成长和发展机会相对公平。这些专业没有一个和数据管理有关,要上岗,自然要对人家进行相关的培训,并经历一定的锻炼。正是在这些培训中,萌生了写一本关于数据管理的书的念头。我发现,数据管理说难也不难:文学等文科方面的员工都能学会基本的数据管理技能,还有一些优势,比如,在这一领域他们是白纸一张,恰恰更容易绘画,和那些已经被“乱画”过的相比,会学到更精准和更扎实的技能。

作为一个“非科班”出身的人,更能了解一个门外汉在学习时可能会遇到的问题,更能体会哪些知识和技能需要深入的理解和长久的锤炼。

作为一本关于社会调查数据管理的入门书,为使全书连贯可读,在写作的过程中,必须把通常比较复杂的问题进行某种程度的简单化处理,因此不可避免地要忽略某些问题和观点,我对本书中所有可能的错误负责。本书的成书时间仓促,如果将来有机会,我会在别的书中对数据管理和数据分析做更多的讨论,望读者阅读拙作能如我初心。

唐丽娜

2015年11月2日于中国人民大学明德国际楼


本书源于CGSS项目,首先要感谢CGSS项目组的辛苦工作和无私支持!特别要感谢我的3位导师——袁卫教授、李路路教授(CGSS项目PI)和王卫东教授对我在学习上的指导和工作上的理解及帮助。他们不仅是我学习上的导师,更是我人生中的导师,遇到他们,是我的幸运,没有他们,就不会有本书的出版。

还有很多人从不同角度和层面为本书付出了辛勤的劳动,在此我对他们都表示诚挚的谢意:

感谢我的同事盖琴宝和刘斌帮助我绘制了数据合并的图示并编辑文字。

感谢我的同事葛欢、韩佳妤和孙立鑫对本书的认真编辑,他们纠正了书中的一些错误,并对本书的资料组织给出了中肯、宝贵的建议。

感谢忘年之交王天星老师在整个出版过程中的不吝赐教和鼎力相助。

他们的严谨工作和无私奉献为本书的质量保驾护航。

感谢我的闺蜜王昕,是她一直鼓励我、支持我、肯定我在数据管理和数据分析方面的认识,让我热情高涨、轻松愉快地写书。

我还要感谢我的先生,他是我的灵魂伴侣,没有他对我的理解、支持、包容和关爱,我无法在这么短的时间内成书。

最后,我要感谢我的父母和弟弟,我的一切都是他们赐予的,这本书是我给他们的献礼。我对生活的热爱、工作的执着,都源于我的家人。



数据!数据!数据!重要的事情说三遍!

当前,越来越多的人意识到数据里包含着巨大的力量,潜在着无限的商机,无数的焦点都聚焦于数据,用事实说话已转变成用数据说话。虽然喜欢数据的人越来越多,但他们又恰恰不喜欢数据管理。

目前,越来越多的人开始用数据说话,用量化研究方法研究社会问题,在大学里学到的数据管理方面的知识和技术越来越少。在这个浮躁社会里,当人们都急于用数据生产文章、生产书籍、生产财富时,没有多少人关注数据本身,只要有数据就用,不管数据质量如何,只是一味迷恋数据,而且这种迷恋日渐深入人心。他们关心的是数据带来的惊喜,分析和解释数据带来的满足感。很少有人关心数据,现在数据已经不仅仅限于一堆数字,还有文字、图片、视频等多种构成要素。这些数据要素本身都是一些客观存在,也有正确和错误之分,如果不对其善加管理,也会磨损、生锈,甚至最终消失。

管理数据和使用数据是两个完全不同的工作,使用数据的人不一定会管理数据,毫不夸张地说,绝大部分使用数据的人甚至都不知道数据是需要管理的。我们是一个缺乏数据文化的国家,数据文化的缺乏是中国之所以落后的一个重要原因(涂子沛,2014)。在社会科学领域,我国的量化研究起步较晚,研究者的精力和时间都用在使用数据这件事上,对数据管理置若罔闻。他们不太关心数据是如何收集或生产出来的,这一点其实非常重要,如果收集数据的方法不科学,得到的数据还不如不用。令人不安的是,很多这种不是用科学严谨的方法收集到的数据,被用来“代表公众的想法”,甚至从中提出“科学的理论”。

数据文化是尊重事实、强调精确、推崇理性和逻辑的文化(涂子沛,2014)。

数据管理不被重视,原因很多,其中一个最重要的缘由当属数据管理的工作内容不清。数据管理,乍一听起来,好像知道是什么,但是真要动手做起来,就有些找不着北。特别是对社会调查数据来说,数据管理的界限更是一个让人头疼的问题。

数据管理,简单地说,在社会调查中,凡是和数据有关的工作都属于数据管理的范畴,除此之外,当社会调查数据收集完成后,数据的录入、清洗、保存、存档、发布等也都是数据管理的重要组成部分。根据工作时间,可以把社会调查数据管理分为三个阶段:数据收集前的管理工作、数据收集过程中的管理工作和数据收集后的管理工作。

当前,国内的数据管理做得非常浅,尤其是数据收集前的数据管理几乎无人问津,理所当然地认为这个阶段没有和数据有关的工作。实际上,撇开这个阶段的问卷设计和抽样设计等和数据管理息息有关的工作,单是编码手册的制定,就是任何一项数据管理的重中之重,它会直接影响到问卷设计、样本设计、数据采集、数据录入、数据清理。通常,数据收集后的管理阶段是很多人认为的数据管理,即便如此,这个阶段的工作也做得马马虎虎,很多社会调查项目都忽视了这个阶段的数据清理工作,以为把数据录入计算机后,得到的电子版数据能直接用于统计分析和学术研究,忽略了数据中多变量间的逻辑模式检验、对缺失值模式的设计、删除敏感信息/识别信息等。没有经过这些管理的数据,大多数都是糟糕的数据,不仅不利于学术研究和社会研究,而且有可能使研究结果产生误导性,甚至是灾难性的影响。

目前,国内的数据管理不仅存在内容和方向问题,而且谁来管理数据也不太清楚。既然数据管理的工作内容都不明确,那么工作主体不明也是情理之中。数据管理主体不明的另一个重要因素是:国内极度缺乏社会调查数据管理人才,没有哪一所学校的哪个专业教授学生如何管理数据。

随着数据时代的到来,很多专业都和数据打起了交道,老师传授学生的都是如何使用数据,更准确地说,如何直接拿数据作分析和研究,但没有告诉学生在数据采集和数据分析之间需要一座桥梁——数据管理。数据采集者认为,数据管理是研究者应该做的工作,而数据研究者又觉得数据管理是数据采集者份内的事,如此一来二去,就没人做这份工作了。

国内很多很好的社会调查数据,过了三五年之后就几乎找不到真正了解这个数据的人了。由于数据管理工作不受重视,即使有志于做数据管理的人,迫于生活压力和大环境的影响,也坚持不了几年就会另谋他职。这样一来,做这份工作的人流动就很快,对大型社会调查或长期社会调查而言,这是一个重大损失,非常不利于数据的保存、使用和长期发展。理想状态是建立一支专门的数据管理团队,这支团队不仅能起到管理数据的作用,而且通过和数据打交道、和用户打交道,能够不断提出新的建议、新的方案,来提高数据的质量、扩大数据的使用范围、提高数据的使用效率。

在数据时代,数据就是生产力,时代需要使用生产力的人,也需要生产、保护生产力的人。

社会科学的科学性不同于自然科学,自然科学研究范式常常因过于理想而难以实现。社会调查在社会中进行,可行的社会调查不一定符合人类和社会的道德规范。研究者在整个研究过程中一定要时时刻刻提醒自己要尊重研究者的知情同意权及其他各种权利,并要感谢参与调查的受访者,感谢他们提供的信息、付出的时间、给予的帮助。

数据管理人员要保护好调查对象,对一项社会调查而言,接受调查的参与者本身就是一种重要的资源,要保护他们的利益,避免伤害他们或置他们于危险之中。

(1)数据保密。在整个数据管理过程中,要做好数据的保密工作。数据管理人员不得以职务之便将数据以任何形式透漏给任何人,以致把数据提供者暴露于公众之中。

(2)数据匿名化。无论出于什么原因,整个数据管理工作过程中都不应该包含调查对象的个人真实身份信息,比如姓名、住址、联系方式,甚至所在的社区或区县。如果真的需要,也要征得相关人员的同意之后并签订书面保证后,才能使用。或者,用化名/假名区分数据。

(3)数据隐私。在数据管理的不同阶段,对隐私性/识别性信息的保护措施不同。在数据收集阶段,所有参与社会调查的相关人员都要书面承诺不得将问卷中收集到的任何信息泄露给他人,也不能将其用作他途。如果要发布数据,那么一定要删除数据中所有可能会识别出调查对象的信息。

(4)数据安全。社会调查人员有责任确保收集的信息不会被泄露出去,不会落入不法之徒之手,用于其他目的。一旦开始收集数据,数据管理人员就要树立保密意识,想尽一切办法保证数据的安全。特别是用电脑或其他电子设备保存数据时,既要做好备份,又要保证数据的安全。

现在数据伦理已经不单单是道德问题,很多国家制定了相应的数据保护法或信息法,以确保数据安全。

数据不是万能的,好的数据犹如优质土壤,可在其基础上种出好的庄稼,用好的粮食做出可口的饭菜,优质数据能发展出有意义的理论,甚至能转化为生产力,改善人们的生活,促进经济发展。数据需要管理,数据管理是数据时代的一项严肃事业。

近几年,做社会调查的人/机构越来越多,喜欢社会调查数据的人也越来越多。可是,我在调研和合作经验中,体会得越来越深的一点就是:无论是社会调查,还是数据管理,都是专业性极强的事业。令人恐慌的是,越来越多的非专业人员参与到社会调查中,甚至貌似谁都可以做社会调查,只要有数据,数据库想建就能建。这样发展的后果是人们越来越不相信社会调查数据,特别是基于非专业技术和方法收集的数据得出的所谓的“科学”的结论,更让很多人对社会调查数据嗤之以鼻。渐渐地,我萌生了写一本关于社会调查和数据管理的书的想法,不故弄玄虚,也不轻言薄语,不求面面俱到,至少能把其中的基本要素讲解清楚,让没有学过社会调查和数据管理的门外汉也能看懂。

在内容方面,本书的重点是讲解社会调查数据的整个管理过程,意图是让读者在看完本书后能对社会调查数据管理工作有一个总体的了解和掌握。对数据管理过程包含的所有工作的讲解侧重点不同。坦白说,本书中的每个章节都可单独写一本书,我也有这个写作计划。本书在内容上,更侧重用Stata管理数据,所用的示例数据均来源于中国综合社会调查。

在阅读对象方面,本书不仅适用于专职的数据管理者,而且对数据分析员和研究者,也有一定的使用和借鉴价值。所有的数据在用于正式的数据分析之前,都需要对其做一定的清理和处理,才能高效、精确地使用数据,而这些都属于数据管理的工作范围。本书的每个章节相互独立,读者可以从头读到尾,这样最好,但是也可以根据自己的需要选读。根据我的经验,有些基础的知识、命令和技巧很容易,但常常被数据使用者忽略,因此我在写作的过程中有针对性地反复使用这些知识,以帮助读者强化记忆。

在所用软件方面,本书的副标题是基于Stata14管理CGSS(China General Social Survey)数据,自然书中用到的主要统计软件就是Stata,这是因为我一直用Stata做数据管理和数据分析,而且CGSS的数据也主要用Stata管理。虽然书中的大部分工作用其他软件也都能实现,但Stata最好用,它的交互界面更友好,计算机语言更人性,而且它提供的do文件和log文件能轻松实现数据管理的可复制性和部分工作的自动化实现。

本书对Stata用法的讲解以数据管理任务为导向,区别于市面上其他以命令讲解为导向的Stata书籍。希望能借此揭开计算机和Stata的神秘面纱,水到渠成地引入数据管理中常用的Stata命令,而不是枯燥地列出所有可能用到的命令。Stata的功能非常强大,没有必要(我觉得也不大可能)把所有的命令都学完,掌握了学习Stata的技巧和方法,需要用哪个命令现学也不晚。而且大脑的内存有限,何不让它轻松运转呢?

书中所用示例数据及do文件 在人民邮电出版社的异步社区里,网址是http://www.epubit.com.cn/book/details/4336用户可以自行下载。


数据管理是一个过程,不是一蹴而就的单项工作任务。随着数据化时代的到来,数据在生活和工作中扮演着越来越重要的角色。数据量的剧增对数据管理工作提出了巨大的挑战。数据管理工作和图书管理工作有些类似,单个数据就相当于一本书,管理很多数据就相当于建立一个数据馆(数据库),用户按照一定的步骤操作,就能找到自己所需的数据。数据管理和图书管理的一大区别是:每个数据除了数据本身以外,还有一系列的匹配资料,如编码手册、调查问卷、抽样设计方案、调查手册、权重计算方案、缺失值处理方案等。因此,数据管理是一个多层次、跨时段的工作过程。

和数据分析一样,一项好的数据管理工作流程应该具有可复制性。也就是说,一个从来没有接触过某一数据的人,在看完该数据的管理工作档案后,能够理解该数据,并能以同样的方法操作于数据。

这个世界上没有一种数据管理工作流程适用于所有的数据管理项目或科学调查研究项目,任何一项具体的数据管理工作都有自己独特的特点,但不可否认的是,不同的数据管理项目之间仍存在一定的相同之处,具有一些共性。本书的重点放在数据管理工作的共性上。要把数据管理工作做好,并非易事。数据管理工作的核心和灵魂是有想法和思考的管理框架。

数据管理并非杂乱无章,而是有一定的章法可循。根据社会调查项目的进展,可以把数据管理分为三个阶段:收集数据前的数据管理、收集数据中的数据管理、数据回收后的数据管理。

每个阶段的数据管理工作内容不同,侧重点也有所差异。

数据是社会调查中最宝贵的资料。一些数据管理者或研究人员常常把数据的管理工作集中在已经回收的数据上,通过清理回收的数据,来控制数据的质量,但是他们却忽视了:一份好的数据一定是建立在良好的前期管理的基础上。这些前期的管理应该包括以下几个方面。

(1)问卷设计。问卷设计与数据管理密不可分。对于社会调查的研究人员来说,问卷是他们与被访者对话的桥梁。问卷传递着研究者想要获取的信息,同时也表达了受访者的反馈。好的问卷设计能高效地将两者结合在一起。受访者能明白问卷含义,根据题意回答问题,研究者能够得到想要的信息,而不是一份无效问卷。

问卷设计本身就是一门学问。一份合格的问卷至少应该包括:问卷编号、卷首语、题号、提示语、被访者联系方式和致谢语。此外,研究者也可根据自己的调查特点增加新的部分。

(2)抽样设计。一般而言,抽样调查是一种非全面的调查,即不是普查。从分类上来看,抽样包括非概率抽样(如方便抽样)和概率抽样(或称随机抽样)。抽样设计是收集数据前的一项重大工作。抽样设计应当科学、严密、具有可行性。当前,抽样设计在我国仍然没有得到足够的重视,很多调查由于抽样设计环节的问题,导致回收的数据严重偏离,甚至无法使用。因此,抽样设计与数据管理息息相关。

(3)人员安排。人是数据管理的主体。在数据管理中,需要做好数据管理员和访问员的合理安排。本书提倡一个社会调查都需要至少配备一名数据管理人员,全程参与社会调查过程和后期的数据管理。

人们常常把数据比做菜,如果数据管理人员是择菜和洗菜人,那么访问员就是摘菜人。每一份数据都需要访问员回收回来,因此,做好访问员的培训是一项十分重要的工作。

(4)制定编码手册。在一项社会调查中,编码手册(codebook)是解读数据的工具。编码手册基于问卷,通过把问题转换成变量,确定变量的取值范围、加贴标签等工作,对问卷所有内容进行编码。最后制定成编码手册,方便用户在使用数据时通过阅读编码手册来理解数据管理人员对数据所做的处理。

和这一阶段数据管理有关的详细内容,参见第4章。

收集数据前的数据管理为好的数据质量打下了基础,收集数据中的数据管理工作最终决定了数据的质量。

在实地调查的三个环节(问卷的填答、问卷的审核和问卷的提交)中,每一个环节完成的好坏都直接决定数据质量的优劣。数据一旦收集完成,数据质量就定了,之后的种种纷繁复杂的数据处理都只是更好地保障数据质量,而无法改变原始数据的质量。但是,数据的收集过程是一个动态的过程,在这个过程中可以随时加入调查者、研究者的干预,从而及时纠正出现的影响数据质量的问题。因此,在收集数据的过程中一定要时时关注数据质量,边收集,边分析,边协调。

只有做好收集数据中的数据管理,才能真正拿到高质量的数据,为之后的数据清理和数据分析提供最好的资料。

数据回收后的数据管理工作,侧重对数据完整如实的录入以及思路清晰的清理。问卷回收并提交录入后,经过一系列录入校对的工作,就得到了录入的数据,我们通常称之为原始数据;常常有人认为拿到这些数据,就可以直接从事相关的数据分析了。但事实上,原始数据到统计数据之间隔着一座桥梁,就是数据的清理工作。当调查结束数据回收后,数据管理工作主要包括检查提交的录入数据,检查数据中的变量,检查数据中的取值,给取值添加多套不同语种的标签,给数据添加变量,删除数据中的敏感变量和保存数据及相关资料这7个部分。

检查提交的录入数据之前,要先查看数据格式,如果提交的数据不是.dta格式,需要对数据进行格式转换,保证数据是Stata格式。在确定工作路径前提下,要用Stata14读入数据,在读入数据之前,需要对数据进行转码处理,转码用到的命令为unicode,第7章将会详细介绍转码的方法和转码过程中的注意事项;成功读入数据之后做的第一项工作就是检查观测值和变量数量,以确保数据没有少录,保证数据的完整性;同时,也要检查数据是否有重复录入的情况;为了更好地让数据呈现在数据使用者面前,数据管理者还需要给数据加标签,添加注释,必要时对观测值和变量进行排序。

变量和取值的检查是数据管理工作中的重点。其中变量的检查包括:变量名,变量标签,变量的存储类型,变量的存储格式,需要时还可以对变量添加注释;取值的检查包括:取值是否合理,有无取值标签,多个变量间的取值是否有逻辑上的一致性。

为了方便不同国家、不同语种的数据使用者使用数据,可以给取值添加多套不同语种的标签,多套标签间可以根据使用者的需求自由切换。为了呈现更全面和更好的管理数据,有时需要给数据添加变量,但是前提条件是保证不改动原数据。出于研究伦理,数据管理者有义务对被访者的相关信息进行保密,因此,在数据使用前,需要对数据中的敏感变量进行删除处理。最后需要强调的是,数据和相关资料的保存也是数据管理的重要部分,尤其需要引起数据管理工作者重视。

数据管理没有方程式,因人、因项目而异,本书提供的只是一种思路和一种方法,供读者参考,你可以在具体的工作中学习、总结、提炼,摸索出适合自己项目的管理流程。

对社会调查数据而言,数据管理工作从调查工作启动之日开始。调查数据来源于社会调查,社会调查是生产数据的一种重要工具。数据管理的最终目标是确保数据质量。高质量数据有两个基本判断标准:真实、有效,即数据尽量接近事实(真实性),且能为研究所用(有效性)。为此,数据管理工作至少要满足以下6个基本要求。

1.目标清晰

上面提到,数据管理贯穿整个社会调查全程,不仅历时长,且任务杂。在这种情况下,每一阶段、每一步的管理目标都要明确清晰,以便管理工作的分配和管理人员的安排,否则容易出现漏做、重做等问题,影响数据质量。

2.任务可行

确定目标后,接下来要做的工作就是把目标分解成各级任务。数据管理者一定要注意:任务可以是不完美的,但一定要可行。在数据管理过程中,常见的一种困境是:任务明确,但不具备可操作性。舍弃“完美主义”,在现有的时间、资金、人力等资源条件下,尽可能好地完成任务。同理,在这个世界上很难找出没有问题的社会调查,找不到能完全真实反映社会现实的数据,一切社会调查所得的数据都只能是无限接近事实。

3.流程简易

目标和任务确定后,接下来要考虑到工作流程。制定工作流程的基本标准:简易。越复杂的工作流程,越容易出错。在某一项具体的数据管理工作中,参与的人员越多,工作流程的制定就越简易,因为对不同的人而言,简易的标准不一样,如同样的事情,能用常见软件完成,就不要用小众软件,如果采用小众软件,不仅给合作者带来很多负担和学习压力,而且会增加出错的可能性。

4.职责明确

目标不会自动实现,任务不会自动完成,流程不会自动走完,事情最终是由人来完成的,再完美的工作计划如果没有合适的人承担,那它几乎就等于零。任何一项数据管理工作都不可能由一个人单独完成,后面会讲到“双录”“双校”,任何一项和数据管理有关的工作,都尽量保证由两个人独立完成,并做事后校验。 在大型数据管理项目中,整个工作流程类似工业生产的生产线,环环相扣,每个环节的工作人员都要清楚地知道自己的权限和职责,否则一环出错,整个流程就会崩溃。比如:通常,数据编码手册在问卷设计时就要考虑到,而且问卷一旦确定,数据编码手册也就基本定型。数据清理员在拿到原始数据之后,必须要对照数据编码手册对每个变量逐一进行检验。

5.标准统一

在大型数据管理中,标准统一极其重要。只有用同一标准管理的数据,才有可能进行合并,“外人”才有可能读懂数据。数据管理的忌讳是:标准不一,朝令夕改。假设有一个关于健康的、5年的追踪调查,体重这个变量在第一年的数据中单位是公斤,第二年单位变成斤,第三年也是斤,第四年又变成公斤,第五年也用到公斤。这样,用户使用数据时稍不注意,就有可能直接把5年的体重合并在一起比较。再如,在一个多年的追踪调查中,同一个变量“收入”使用的是不同的变量名:income、incomeyr、perincome等。

6.灵活拓展

好的数据管理工作标准和工作流程应该具备一定的可拓展性。对不同的项目进行数据管理时,可能会用到不同的标准和流程,但没有必要对所有的项目都重新建立一套新的标准和流程,相似的数据管理项目可以互相借鉴,比如:对CGSS2012年的数据管理工作流程进行一定的拓展和修改后,即可用作CGSS2013年的工作流程。再如,中国宗教调查是一个全新的项目,针对这个项目的数据管理就是基于CGSS的数据管理工作流程和内容改出来的,既省时、省力,还行之有效。

在上述标准基础之上,尽量提高管理效率,优化管理流程,实现管理自动化,保证管理标准化。

数据管理工作具有不可逆性。未雨绸缪胜过事后修补。

1.提前规划

磨刀不误砍柴工。只要不是一步就能完成的事情,一般都需要规划。很多时候,我们总是在规划上花费的时间太少,在工作上花费的时间太多。对一个数据管理项目而言,好的规划正如一套好的制度对一个国家的运行的作用一样,统筹规划的好坏往往能直接决定一个数据管理项目的成败。

规划既要全面,还要注重细节。数据管理是一个“细活”。自上而下的规划思路更具有指导性。规划要切实可行。理论上,完美无缺的方案往往可行性都很低,因为逻辑和现实间有着无法衔接的断裂带。

注意:规划不是一成不变的,随着数据管理的推进,如果发现有规划不到或规划错误的地方,管理者一定要及时更正,且要通知到整个管理团队。

2.优化组织

精心的组织管理能够提高管理效率。这里的组织管理对象包括人、事、物。在人员组织方面,第一要注意的是:人员一定要精简,毕竟数据管理不是社会调查,不需要庞大的实地调查队伍,但要精干。第二要注意的是:尽量保证每项工作都有两个人在同时做,这样一方面能互相检查,另一方面更重要的是:当其中一人因故要退出时,有备手。

在事的组织方面,有两点需要注意:第一,保证规划中的每件事情都有人在做。这一点听起来好像是废话,但实际情况是,很多时候等项目都做完了,才发现忘记安排人员做记录。第二,事情有轻重缓急之分。对规划中的每件事情,都需要排一下优先顺序。

在物的组织方面,要强调的还是两点:首先,和数据有关的所有东西都要保存好,而且要有组织、分门别类地保存好,否则如果后期找不到,就等于没保存。其次,对于能够电子化的物,如电子表格、电子问卷等,一定要做好备份。

3.及时记录

数据管理一定要做好记录,否则无法实现数据管理过程的可重复性。任何一项数据管理流程都是非线性的,在实际工作中,数据管理人员经常需要返回到之前的某个阶段、某个步骤中去纠正某个错误或者发现新的问题。此时,如果没有记录,很多工作就需要重做,费时、费力,如果有记录,只需要找到记录,在其基础上进行修改或订正即可。

做好记录是长期规划的基础。做记录时,要保证及时且条理清晰。人的记忆能力有限,随着时间的推移,对以前完成的事情的记忆会越来越模糊,因此,尽量把当天的管理工作当天做好。做记录的另一个好处是:当有人中途加入,可以通过阅读之前的记录了解整个管理工作的内容和进度。

随着存储技术的发展和存储价格的一路走低,存储的成本越来越低,但对存储的管理难度随之拉高。相信很多人都有这样的经历:明明记得把要找的一个文件保存在电脑里,但就是找不到,这样的记录保存和没记录一样。因此,一定要给记录文件做好命名工作,读者可以根据自己的喜好和项目特点发展一套自己的命名规则,以便日后搜索。

4.备份存档

做好记录还不够,对所有的记录还要做好备份存档。许多人因为电脑崩溃、移动硬盘损坏等原因丢失了很多宝贵的资料。备份一定要及时、定时、多次、多方式、多地点。软件的选择要有前瞻性,尽量选择使用正版软件。定期更新存储介质,确保能够读取存储介质。

5.一以贯之

数据管理工作的标准和热情要一以贯之,切忌执行得虎头蛇尾。工作流程和工作计划做得复杂完美,如果执行不下去,还不如选择一个相对简单,但能够执行下去的计划更有意义,切忌完美主义。


在开始讲解数据管理每个流程的工作内容之前,需要简单介绍一下和数据管理相关的概念。

在讲解相关概念和术语之前,首先需要了解一下什么是数据。很多耳熟能详、天天挂在嘴边的词,不见得人人都能对其做出精准的解释。

数据:在人类历史很长一段时期中,数据指的就是数字。当计算机诞生后,得益于数据处理技术的飞速发展,数据的外延不断扩大,而今,信息时代的数据除了包含数字数据外,还包括文本、图片、录音、录像等,数据的表现形式变得多样化,数据已无形化解于个人生活和工作的每个细节中。数据已经变成了一种非常重要的生产资料。

数据管理是一个专业性、综合性、跨学科的事业。好的数据管理人员要具备的基础知识背景主要包括:社会调查技术、抽样技术、统计学、计算机科学,此外,针对专业的数据,如经济数据、心理数据、医疗数据等,还需具备深厚的专业知识,方能做好数据管理。

现在,数据管理和计算机技术的发展密不可分,而且从某种意义上讲,计算机技术的发展推动了数据管理,计算机科学的发展提高了数据的利用率和效用,因此,要做好数据管理工作,必需具备一定的计算机基础知识。

程序(program):简言之,就是让计算机做事的指令。人们通过程序和计算机发生交互。

编程(programming):就是编写计算机程序。采用某种编程语言,根据一定的算法编写计算机程序。

编程语言(programming language):人与人之间通过语言沟通交流。人与计算机进行沟通交流的语言,就是编程语言。现在全世界有几千种语言,同样,编程语言也有很多,如常见的BASIC、JAVA、C、Python、PHP等。

算法(algorithm):是计算机完成某个工作所遵循的一系列步骤。比如,要计算出一个班级的平均英语成绩,其算法是:先把全班同学的成绩加总,然后用这个加总值除以全班人数,算出这个班的平均英语成绩。当然,在计算机中,程序的算法会更加复杂,但基本原理一样。

软件(包)(software):是一系列程序的集合。比如,Excel是一个软件,它里面包含大量的程序,像sum就是其中的一个小程序,通过输入命令=sum告诉计算机做求和任务。再如word软件,同时输入control和B就能完成给字体加粗的任务。

语法(syntax):相信很多人都听说过“编程语言”,我们知道语言都有一定语法,否则无法用于交流和书写。编程语言也有自己的语法,下面就是Stata的命令语法:

[prefix :] command [varlist] [=exp] [if] [in] [weight] [using filename] [, options]

变量(variable):在计算机里,变量是用来存储数据的工具。内存中的海量数据以变量作为它们的标签,当研究者使用数据时,只需要知道变量名,就能调用所需的数据。

在社会调查里,变量指的是调查对象某一特征的变化情况。比如,如果调查对象是人,那么性别就是调查对象的一个特征,这个变量的变化只有两种可能:男和女。

变量的分类标准很多,如根据存储格式分为数值型变量和字符型变量,根据取值分为数字变量和字符变量,依据测量水平分为定类变量、定序变量、定比变量和定距变量。

定量变量(quantitative variable):从取值角度讲,定量变量是数值变量,如在CGSS中调查对象的年龄就是一个变量,这个变量的取值范围是18~100周岁。从计算角度讲,定量变量可以用于各种数学运算(包括加、减、乘、除等)和统计分析。

类别变量(qualitative variable):从取值角度讲,类别变量是字符变量,如性别这个变量的取值就是男和女。从计算角度讲,类别变量只能用于简单的统计描述和统计分析。

类别变量和定量变量之间的区分不是绝对的,定量变量可以转化成类别变量,如年龄这个变量,取值可以是数字从18~100周岁,也可以是青年人、中年人、老年人三个类别。

变量名(variable name):变量和变量名是一回事,如我们说gender这个变量,它的变量名就是gender。

初学者很容易被一些术语搞得晕头转向。特别是同一个概念的不同叫法更具有迷惑性。不要着急,多看,多练,自然就能娴熟于心。

和数据管理密不可分的另一个专业是统计学。

在信息数据时代,每个人都要具备一定的统计学知识[1]。否则可能因为无法读懂数据、统计分析结果而错失良机,也有可能错误地解读各种数据,给个人生活和工作造成不便。

统计,即把数字统一起来计算。统计是一门关于数字的学科,包括统计描述和统计推断。所谓统计描述,指的是对原始数据进行概括总结的方法,而统计推断指的是基于样本数据来推断总体的某些特征或趋势的方法。

接下来介绍的都是和数据管理有关的统计学基础知识。

在统计学中,变量(variable)指的是要调查或测量的对象的某种特征或属性,如性别、年龄、受教育程度、态度等。

取值(value):指的是调查对象某种特征或属性的全部可能。取值不一定都是数字,也可以是文字,如性别的取值是男性和女性。

统计量(statistics):对抽样数据进行统计计算得出的数值,如平均值(mean)、总和(sum)、最大值(max value)、最小值(min value)。

参数(parameter):对研究总体进行统计计算得出的数值。

总体(population):要研究或调查的对象的全体。比如,要调查某个公司的员工平均收入,那么总体就是现在就职于该公司的所有员工。

样本(sampling):总体的一个子集。比如,要调查某跨国公司的员工平均收入,这个公司非常庞大,员工有几万人,且分布在世界各地,可以采用科学的抽样方法从中抽取3000人作为一个样本,只调查这3000名员工的收入情况。

信度(reliability):指的是测量方法的质量,即对同一现象进行重复观察是否可以得到相同的资料(艾尔·芭比,2014)。在社会调查中,信度和社会调查人员的工作质量息息相关(虚假数据的信度为零),严格按照调查项目的规定工作,方能保证执行过程的信度。社会调查数据采集完成后,科学、客观的数据管理是确保数据信度的有效方法。在社会调查中,常见的测量数据信度的方法是对分法,即把数据随机等分成两份,看两组数据的统计结果是否很接近,如果差异很大,测量信度就有可能有问题。

效度(validity):指的是实证社会调查问卷中的问题在多大程度上反映了要研究问题的真实含义。有效性关注的是提出的问题、收集的数据以及数据分析的正确性[2]。效度是研究设计优劣的一个非常重要的指标,很多研究耗费了大量的研究经费、调查了大量的研究对象,但研究问题并没有很好地测量到想要研究的问题或感兴趣的点,这样的研究和研究数据的效度就很低。

常见的检验效度有效性的标准有表面效度、标准关联效度、建构效度和内容效度[3]

信度和效度是一对相互关联的概念,好的研究和数据必须效度和信度都要高。

均值(mean):调查对象某个特征(如收入)的总体平均情况,用数值表述是某个变量的算术平均值[4],类别变量(如性别)没有均值,即使能够算出一个均值,这个均值也没有实际意义。

众数(mode):调查对象在某个特征上出现次数最多的一种情况,用数值表述是某个变量有多个取值,调查对象选择次数最多的那个值就是众数。

中位数(median):是一个位置值,指的是位于中间(N/2或50%)的那个调查对象选择的取值。把调查对象在某个特征上(如收入)的所有可能出现的情况排序,位于第50%个位置上的人选择的特征(某一特定收入)就是中位数。用数值表述是把变量的取值按顺序排列,并列出每个取值出现的频数,第50%所在的取值就是中位数。

分位数(quantile):也是一个位置值,指的是第几个百分位数,和中位数的计算方法一样,中位数是分位数的一种,即中间分位数,常见的有上四分位数——25%分位数,下四分位数——75%分位数。其中上四分位数和下四分位数的差就是四分位数差。

标准差(standard deviation):调查对象在某个特征上(如收入)的差异情况。用数值表述就是每个取值的差减去某个变量的均值的平方和,然后除以调查对象个数,再取平方根,这个平方根就是标准差,这个统计量只能用于定量变量。

数据管理和数据分析离不开统计,统计量是检验数据清理、数据分析的重要标准,数据管理人员必须掌握基础的统计知识。市面上的统计书籍已经相当丰富,且分门别类的十分详尽,如社会统计学、医学统计学、生物统计学等,可以根据自己的专业和工作需要选择阅读。

数据与调查密不可分,调查是一项生产数据的工作。人口普查、经济普查、学术调查、商业调查等都是重要的数据来源。作为一本关于社会调查数据管理的书,必然会包含一些与之相关的术语和知识点。了解这些术语有助于做好数据管理工作。

定量数据(quantitative data):考察一项事物可从数量和质量两个方面入手,可用于统计分析的数量方面的数据就是定量数据。

定性数据(qualitative data):质量方面的数据就是定性数据。

原始数据(raw data):指的是未经统计的数据。在社会调查中,把完成的调查问卷录入到Stata或excel里,得到的就是原始数据。CGSS公开发布的就是原始数据。

统计数据(statistical data):是通过对原始数据进行概括而得到的数据。最常见的统计数据是国家统计局发布的各种统计数据,统计年鉴上的数据也属于统计数据。Stata里有一个命令collapse可以生成统计数据。

普查(census):对研究对象的全体所做的调查就是普查。常见的全国人口普查、经济普查等都是普查。

抽样调查(sampling survey):简单讲,抽样调查就是只调查研究对象总体的一部分。从总体中抽取一部分进行的调查就是抽样调查。和普查相比,抽样调查省时、省力,成本更低,效率更高。

总体(population):是要研究对象的全部。总体可以分为有限总体和无限总体。有限总体是总体的数量在一定时期内保持不变,如要研究某个村的村民健康,那么全体村民就是总体,而且这个总体的数量是可知的。无限总体是总体的数量是无限的,无法计算的,如要检验一个啤酒厂生产的啤酒质量,这个啤酒厂每天都在生产啤酒,啤酒的总数一直在变。

抽样框(sampling frame):是研究对象总体中所有个体的名单或名册,如户口簿、学生花名册、固定电话等。抽样调查的一个关键就是抽样框的获取。并不是所有的社会调查都能直接拿到要调查对象的全体名单,如CGSS是全国范围的抽样调查,理论上最简单的抽样方法就是拿到全国人民的大名单,用一种随机抽样的方法从中抽取出一部分人作为调查对象。显然,几乎不可能拿到这个抽样框——全中国人民的名单。在有些情况下,研究者获取的抽样框里只能是尽量多地包含要研究对象总体中的所有成员,或无尽总体。

抽样单元(sampling unit):也叫抽样单位,是构成总体的个体。总体不同,其抽样单元也有可能不一样。比如:要调查中国人民大学的所有在校生,那么总体就是当下的所有注册在校的学生,抽样单元就是学生。如果要研究北京市每个社区的建设情况,那么总体就是隶属于北京的所有社区,这里的抽样单元就是社区。

样本(sample):是从总体中抽取出的一个子集。有时,这个子集中的每个个体都可以被当作一个样本。

问卷(questionnaire):在社会调查中,问卷是数据的载体,问卷的主体是要调查的问题及其答案,问卷中的辅助信息包括问卷封面、卷首语、致谢语。问卷可以是纸质版,也可以是电子版。

纸笔调查(Paper-and-pen Interviewing):也被称作传统调查,用的是纸质版问卷,问卷呈现在纸上,访问员/调查对象用笔(铅笔/圆珠笔/钢笔/签字笔等)把答案写在纸上。访问员把完成的纸质版问卷直接送到调查项目组或通过邮寄的方式送到项目组。项目组要安排人员,使用某种统计录入软件把纸质版的问卷录入计算机中,形成电子数据,然后才能用于数据分析和应用。CGSS2003——2013年采用的是纸笔调查模式。

计算机辅助面访(Computer Assisted Personal Interviewing,CAPI):20世纪80年代,欧洲最早出现计算机辅助面访,CAPI用的是电子版问卷,问卷通过电脑(Pad/手机)的屏幕显示和管理,访问员/调查对象用鼠标、键盘、手写笔或触摸屏、语音等手段直接把答案输入计算机里。完成的电子版问卷既可以通过网络实时传输到中央服务器,还可以把它们拷贝到U盘、光盘或移动硬盘等存储介质中通过邮寄的方式寄回项目组。CAPI收集的就是电子版数据,稍作清理即可用于数据分析和研究应用。CGSS2015首次使用了CAPI模式。

测量水平(levelof measurement):也叫测量层次或测量尺度,是对变量取值特征的一种体现,是一种在变量的测量中把信息组织到4个一般层次的体系(劳伦斯·纽曼,2007),这4个一般层次是类别层次、顺序层次、定比层次和定距层次。测量水平和统计方法密切相关,一种统计方法是否能用于计算某个变量,由这个变量的测量水平决定。比如,统计量均值只能用于定比和定距层次的变量,不能用于计算类别变量。

在讲解Stata术语及使用通则之前,首先了解一下Stata。简言之,Stata是一个统计软件,可用于统计分析和数据管理。Stata是付费软件,用户可以从Stata的官网上直接购买最新版的Stata 14。

安装Stata后,打开Stata,界面如图3-1所示。

Stata的主界面由六部分构成:工具栏、命令回顾窗口(Review)、结果窗口(Result)、命令窗口(Command)、变量窗口(Variables)和属性窗口(Properties)。

中间最大一部分是结果窗口,所有命令运行出的结果都显示在这个窗口里。最上边是工具栏,用户可以通过单击图标操作Stata,本书不建议用“点击”菜单的方法来分析数据和管理数据,而是通过Stata的do-file(详见3.4.1)来完成数据分析和数据管理工作。结果窗口的下面就是命令窗口,用户直接在此输入命令,按回车键(Enter键)即可运行。

结果窗口的左边是命令回顾窗口,打开Stata后,运行的所有命令都被保存在回顾窗口,如果用户想再次使用已经用过的命令,既可以在命令窗口重新输入一遍,也可以直接单击回顾窗口的命令,此时该命令就会直接出现在命令窗口。

图3-1 Stata的工作界面

结果窗口的右上方是变量窗口,数据里的所有变量都会在此显示。右下方是属性窗口,该窗口有两个子窗口:变量(Variables)窗口和数据(Data)窗口。

在主窗口的左下方显示的是当前工作目录(current working directory)。

和以前的版本相比,Stata14新增了很多功能,如命令unicode,该命令能轻松解决不同语言之间的编码转换问题。在Stata14以前的版本中,经常会遇到汉字乱码问题,Stata14的unicode命令专门解决这类问题。

和其他程序一样,Stata里有一些常见的术语,理解这些术语的含义是学好Stata的基础,也是做好数据管理工作的基础。对于那些用过Stata的用户,下面要讲的这些概念多数都听说过,甚至都用过,但不见得真正理解了这些概念的全部。数据管理者在常规的数据管理工作中肯定会常常用到下面这些术语,因此强烈建议读者抽出一定的时间来消化吸收它们。

命令:就是让Stata做事情的指示,不同的命令让Stata做不同的数据分析或数据管理工作。例如:命令describe让Stata做描述分析,命令tabulate让Stata做频数分布表。

do-file:do文件就是Stata自带的文本编辑器,有一个独立的窗口,是包含命令语句的文本文件。用户可以把数据分析和数据管理用到的所有命令和注释都写在do文件里,并保存成一个后缀为.do的文件。例如:把讲解do-file的所有命令和注释都保存在文件doexample.do里,如图3-2所示。

图3-2 do-file工作界面

要想运行这个do文件,可以单击上面工具栏中的运行图标(如图3-2所示)——Execute(do),或者单击control+d,运行结果是:

. log using doexample, text replace //[5]建立一个名为doexample的log文件

------------------------------------------------------------
   name: < unnamed>   
   log: C:\Users\leana\Desktop\ssdm\doexample.log   
 log type: text 
opened on: 10 Jan 2016, 15:25:38

. ******这个do文件是用来讲解do文件的示例******[6]
. set more off

. use cgss2013, clear //打开数据cgss2013

. tabulate a15 a2 //做性别和健康的交互表
  您觉得您目 |
  前的身体健 |     性别
   康状况是 |     男     女 |   Total
 ------------+--------------------+----------
   拒绝回答 |     1     1  |      2
   很不健康 |     156    178 |    334
  比较不健康 |     703    831 |   1,534
     一般 |      1,070  1,155 |   2,225
   比较健康 |      2,193  2,156 |   4,349
    很健康 |      1,633  1,361 |   2,994
 ------------+---------------------+----------
     Total |     5,756  5,682 |  11,438
    . log close //退出log
   name: < unnamed>
      log: C:\Users\leana\Desktop\ssdm\doexample.log
    log type: text
 closed on: 10 Jan 2016, 15:25:38
------------------------------------------------------------
. exit //退出Stata
end of do-file

do文件就是一个用来记录命令的笔记本。通过交互模式中命令窗口输入的命令,都会暂时被保留在命令回顾(Review)窗口里,但只要关闭Stata,这些命令就会消失,用do文件可以把它们以文件的形式保存下来,不会因为关闭Stata就没有了。

打开do文件有两种途径:第一种途径是直接单击工具栏上的do文件编辑器图标(如图3-3所示);第二种途径是在命令窗口输入命令doedit,打开一个新的do文件,如果已经知道do文件的名字,如cgss13datacleaning,用命令doedit cgss13datacleaning可直接打开这个指定的do文件。

图3-3 Stata的工具栏

CGSS的管理工作中有99%都在do文件里实现,书中所有的数据管理也都用do文件完成,在数据分析和数据管理中不建议直接在命令窗口输入命令,这样一旦发现前面的某个命令输错了,需要把所有的命令都重新输入一遍。如果用do文件,可以找到错误命令把它改正过来,然后重新运行一次即可。而且,还可通过修改某个项目的数据管理do文件,直接用它来管理其他项目的数据,省时、省力。

Log-file:log文件是Stata的日志文件,它的强大之处在于不仅能把所有用过的命令(Review窗口的内容)都记录下来,而且能把所有命令的输出结果(结果窗口的内容)也都保存下来。

前面的文件doexample.do中就创建了一个名为example的log文件,它把doexample.do里的所有内容和结果窗口输出的所有内容都保存起来,如下所示:

------------------------------------------------------------
   name: <unnamed>
    log: C:\Users\leana\Desktop\ssdm\doexample.log
 log type: text
 opened on: 10 Jan 2016, 15:11:59

 . set more off

 . use cgss2013, clear //打开数据cgss2013

 . tabulate a15 a2 //做性别和健康的交互表

   您觉得您目 |
   前的身体健 |     性别
    康状况是 |     男    女 |   Total
--------------+-------------------+----------
    拒绝回答 |     1     1 |     2
    很不健康 |    156      178 |    334
   比较不健康 |    703     831 |   1,534
      一般 |    1,070   1,155 |   2,225
    比较健康 |    2,193   2,156 |   4,349
     很健康 |    1,633   1,361 |   2,994
--------------+-------------------+----------
      Total |    5,756   5,682 |  11,438

 . log close //退出log
   name: < unnamed>
    log: C:\Users\leana\Desktop\ssdm\doexample.log
 log type: text
 closed on: 10 Jan 2016, 15:11:59
------------------------------------------------------------

Log文件的作用很多,如果想把数据分析的结果直接复制到文章里,直接从结果窗口复制容易出现乱码和格式不齐的问题,最简单的方法就是把数据分析的结果保存在log文件里,然后从log文件里复制。如果不小心把写好的do文件在没有保存的情况下关闭了,也可以把log文件复制到do文件里,去掉命令前面的圆点“.”并删掉输出结果,即可还原没有保存的do文件。

变量(variable):在Stata里,变量指的是用来存储数据的工具,从数据结构看,一列就是一个变量,一行就是一条记录,也叫一条观测值。

evarname:这里的e是extended的缩写。代表数据的_dta属于扩展名,可以把这个代表数据的名字当变量来处理,如命令note。

数据(data):类似一个电子表格,每一行就是一条观测值,每一列就是一个变量,变量有变量名,每个单元格里的数字或字符就是变量的取值。

数据集(dataset):由数据、变量标签、取值标签、格式、注释构成。

观测值(observation):在Stata里,每一行数据就是一条观测值,也叫一条记录(record),也可以称作一个样本(sample),还可以叫作一个案例(case)

语法(syntax):即命令的使用方法和使用规则,和汉语语法、英语语法类似。Stata的人机对话做得很好,很多命令的用法就像把“汉语直接翻译成英语一样”。比如:创建一个名为happy的新变量,让它的取值等于0,如下所示:

. generate happy = 0

在Stata里,每个命令都有自己的用法,并都保存在用户手册里。电子版的用户手册内置在Stata中,被叫作帮助文件。用户可以在命令窗口输入help commandname,打开对应的帮助文件。以命令generate为例,在命令窗口输入:help generate,即可调出命令generate的帮助文件,该文件详细描述了命令generate的用法,如图3-4所示。

图3-4 Stata的帮助文件

变量名(variable name):就是变量。当我们说变量gender时,gender本身就是性别这个变量的变量名。

在Stata里,变量名的长度有限制,最长不能超过32个字符。在Stata14之前的旧版本中,能用于变量名的字符只有数字(0~9)、字母(a~z,A~Z及所有的Unicode字母)和下划线“_”,而且变量名必须以字母或下划线开始。特别提醒:Stata14支持中文变量名

Stata对大小写字母敏感,区分大小写字母,如变量id和ID,它们是两个不同的变量名。建议用户在给变量命名时尽量用小写字母、数字和下划线,这样后期做管理和分析时,方便输入,否则就需要用户经常在大小写之间切换,而且经常会因为大小写的问题找错变量。

用Stata管理数据一定要注意变量名的选择,除了上述规定外,用户不要用命令名(如describe、type、format)、预留字段/名字(reserved word/name)做变量名,否则很容易出错。

变量标签(variable label):是对变量所测量的内容的解释和描述。比如,“被访者的性别”就是变量gender的变量标签。

取值(value):是变量的取值,指的是调查对象某一特征的所有可能,可以是数字、文本、空格、“.”等。以性别为例,通常该变量的取值有两个:男和女。

取值标签(value label):取值标签是对变量的取值的解释,还是以性别为例,该变量的取值是1和2,其中1的标签是“男”,2的标签是“女”。取值标签还可以理解为对变量取值的定义,如给1的定义是“男”,2的定义是“女”。反之,也可以给2的定义是“男”,1的定义是“女”。

如果一个变量的取值都是文本,则无需取值标签,Stata也无法给字符变量添加取值标签。只有当一个变量的取值是数字且为数值变量时,才有可能需要取值标签,也才能给它添加取值标签。以家庭年收入为例,取值有可能是1000、2000、8500等,虽然是数字型取值,但无需标签数据,使用者也能看懂。如果是一个表示政治面貌的变量的取值是:1、2、3、4,数据使用者就会迷惑,此时提供取值标签:1党员、2民主党派、3共青团员、4群众,用户才能明白这个变量的取值代表什么。

注意:大多数情况下,取值和取值标签实际上都代表变量的取值,对性别这个变量来说,可以说它的取值是男、女(无取值标签),也可以定义它的取值是1、2(取值标签是:1男,2女,也可以是1女,2男),还可以定义它的取值是0、1(取值标签是:0男,1女,还可以是0女,1男)。另一种说法是,给性别的取值男和女进行编码,把男编码为1,把女编码为2。

由于数据管理是一项跨专业、跨学科的工作,同一个概念在不同专业、学科中的叫法有可能不一,初学者不必因此困扰,只需真正理解这个概念,就能消除因称呼不一而导致的迷惑。

下面是变量、变量名、变量标签、取值、取值标签在Stata的浏览窗口中的位置。在Stata里用下面的命令打开数据cgss2013及Stata的浏览窗口(图3-5):

. use cgss2013
. browse

变量串(varlist):顾名思义,就是一串变量,即多个变量。在Stata里,有些命令后面只能跟单个变量,有些命令后面可以接多个变量,即可以用变量串。读者在学习命令时,一定要注意这一点,很多时候命令不能运行,就是因为用户在它后面放置多个变量导致的。

数字串(Numlist):是一串数字,中间用空格或逗号隔开,例如:1 3 4 7 10 11就是一个数字串。

系统变量(下画线变量,_variable):Stata里有一些内置的系统变量,这些变量都以下画线"_"开头,所以也被叫作下画线变量,如_n,_N,_all等。

预留名字(reserved word):很多程序中都有一些关键字,也叫作预留字段,这些名字预留给Stata的程序员使用。创建变量名时,要避免使用这些关键字,以免程序不能工作。在Stata中,预留名字有:

_all       float      _n        _skip
_b         if        _N        str#
Byte        in        _pi        strL
_coef       int        _pred        using
_cons       long       _rc         with
Double

图3-5 Stata的浏览窗口

用户在给变量命名时,尽量不要用下画线开头的名字,因为理论上以下画线开头的名字都是Stata预留的内置变量名。

编码(encode):是计算机保存字符、文本的一种方式。绝大多数的统计方法都只是用于定量变量,因此对取值是字符型的变量,要把字符型取值转换成数值型取值,这个过程就是给字符型取值编码。例如,变量宗教信仰的取值有:佛教、道教、伊斯兰教、天主教、基督教和其他宗教,都是字符型取值,可通过编码将其数字化,佛教=1、道教=2、伊斯兰教=3、天主教=4、基督教=5、其他宗教=6。

操作符/运算符(operator):Stata程序中的运算符和数学课上学到的运算符一样(表3-1),遵循正常的数学规则和运算规则。表3-1中列出的18个运算符,运算优先顺序是:!(或~)、^、(负)、/、*、(减)、+、!=(或~=)、>、<、<=、>=、==、&和 | 。如果在一个表达式里既有除法、也有加法,但你想先做加法,再做除法,可以通过加括号“()”实现,如生成一个新变量表示家庭人均年收入,即等于上半年和下半年的家庭收入之和再除以家庭总人数,generate newar=(income1+income2)/famnum。

表3-1 Stata里的主要运算符

算术运算 逻辑运算 关系运算
运算符 计算含义 运算符 逻辑含义 运算符 关系含义
+ & 和,并 > 大于
- | < 小于
* ! >= 大于或等于
/ <= 小于或等于
^ == 等于
- 负向 != 不等于
+ 字符拼接 ~= 不等于

注意,在Stata里,等于用两个等号“==”表示。

操作数/运算对象(operand):即运算符作用的对象,可以是数字、字符、变量。

存储格式(storage type):问卷调查的内容都要以一定的格式保存在Stata里才能成为可用的数据,前面讲过在计算机里,变量就是用来存储数据的工具,因此这里的存储格式,也就是变量的存储格式。和其他程序一样,Stata有两种存储类型的变量:字符型和数值型。

数值型变量有5种存储格式,它们的差别在于存储的最大位数和存储精度,具体规定见表3-2。

表3-2 数值型变量的存储格式

类型 最 小 值 最 大 值 最接近0且非0的数字 所占字节
byte -127 100 +/-1 1
int -32,767 32,740 +/-1 2
long -2,147,483,647 2.147.483,620 +/-1 4
float -1.70141173319*10^38 1.70141173319*10^38 +/-10^-38 4
double -8.9884656743*10^307 8.9884656743*10^307 +/-10^-323 8

在这5种数值型存储格式中,前3种byte、int和long又被称作整数型存储格式,顾名思义,只能保存整数。若要保存带小数点的数据,则必须用float或double型,否则就会丢失精度。

所有的字符都被保存成字符型变量,一共分为两大类:str#和strL,共包含2046种,其差别在于能保存的字符的最大长度。str#是固定长度字符,str1-str2045的最大长度就是str#后面的数字#,str1表示只能保存1个字符,str2045表示最多能保存2045个字符。

strL(string Long)是Stata里的长字符,能容纳20亿个字符。它的一大特性就是能节省空间,当不同观测值在同一个变量上有相同取值时,strL只保存其中一个,把取值相同的观测值在这个变量上的取值都指向内存里的同一个位置,这个过程被叫作合并(coalesce)。它的另一个功能是能够保存二进制字符串,前面的2045种字符型存储格式都无法保存含二进制字符串的变量,只能存储文本字符。简单地讲,二进制字符就是包含二进制数0的字符。如果想了解更多关于数据类型的知识,用户可以在Stata命令窗口输入help data type查看更多内容。字符型变量的存储类型见表3-3。

表3-3 字符型变量的存储类型[7]

类  型 最大长度 所占字节
str1 1 1
str2 2 2
. .
. .
. .
str2045 2045 2045
strL 2000000000 2000000000

补充:位(bit) vs. 字节(byte)


位和字节都是计算机的存储单位。其中位,也叫比特,是计算机的最小存储单位,即二进制的0或1。字节是计算机的基本存储单位,一个字节包含8个二进制的字节。通常,一个标准英文字母占1个字节的存储空间,一个标准汉字占2个字节的存储空间。

字符串(string):一串字符就是一个字符序列,在Stata里,所有放在双引号里的都是字符串,比如:"3.148"3.148,前一个是字符,后一个是数字,前者不能用于数学计算,后者可以。注意:不是所有的字符都必需用双引号括起。

引号不是字符串的一部分,用两个引号注明该字符串的起点和终点。

选项(option):选项是Stata命令的一部分,但不是所有的命令都有选项。以命令list为例,list [varlist] [if] [in] [, options]

选项必须放在逗号的后面,通常情况下,一个命令会有很多选项,用户可以根据自己的需要选择添加一个或多个选项。以cgss03为示例,列出前10条观测值的性别、出生年份,如下所示:

. use cgss03, clear

. list sex birth in 1/10, abb(9) noob sep(2)

+--------------+
| sex  birth |
|--------------|
| 女   1966 |
| 男   1939 |
|--------------|
| 女   1965 |
| 男   1967 |
|--------------|
| 女   1951 |
| 女   1960 |
|--------------|
| 女   1965 |
| 女   1979 |
|--------------|
| 男   1982 |
| 男   1963 |
+--------------+

条件(condition):在Stata里,用条件来限制命令的作用对象和作用范围,包括if条件和in条件[8]。绝大多数的Stata命令都允许用if和in条件。用法是:

command if exp
command in range

放在命令的后面,逗号的前面(条件区别于选项,只有选项才能且必须放在逗号的后面),后面要加上表达式(expression,如gender==1,income=5000)或范围(如1/10,f/10,-10/1)。以cgss03为例,列出性别和年收入大于等于7万元的观测值,如下所示:

. list sex incyear if incyear>= 70000
   +----------------+
   | sex  incyear |
   |----------------|
311. | 男   70000 |
522. | 男   80000 |
714. | 男   100000 |
   +----------------+

如果要列出性别和年收入超过七万元的观测值,用if条件即可:

. list sex incyear if incyear > 70000
   +----------------+
   | sex  incyear |
   |----------------|
522. | 男   80000  |
714. | 男  100000  |
   +----------------+

结果显示年收入超过7万元的只有两人,且都是男性,他们的观测值编号为522和714。

缺省(default)设置:指的是Stata程序员在编写Stata程序时就已经规定好的设置,这些缺省设置值普通用户无法修改,但Stata的命令中有些选项可以改变缺省设置。以命令list为例,用数据cgss03.dta来看list的一些缺省设置。

打开cgss03,列出前7条数据的省份(province)、社区类型(commtype)和性别(sex),命令如下:

. use cgss03, clear //用于讲解缺省设置(default)

. list province commtype sex in 1/7
    |-----------------------------------------------------|
    | province                    commtype  sex |
    |-----------------------------------------------------|
 1. |  内蒙古                   集镇社区  女  |
 2. |   湖北             单一或混合的单位社区  男 |
 3. |   山东             单一或混合的单位社区  女 |
 4. |   吉林        未经改造的老城区(街坊型社区)  男 |
 5. |   贵州             单一或混合的单位社区  女 |
    |-----------------------------------------------------|
 6. |   江西       新近由农村社区转变过来的城市社区  女 |
 7. |   广东        未经改造的老城区(街坊型社区)  女 |
    |-----------------------------------------------------|

可以看到:输出结果以5条数据为一组,用横线隔开。这就是一个缺省设置,从下面的list帮助文件截图(图3-6)可知(长方框里的内容default is separator(5)),默认的输出结果都以5条数据为一组,用横线隔开。大多数的软件都有一些缺省值,如常用的办公软件word,打开一个新的word后,默认的字体大小是5号字,可以通过单击工具栏里的字体大小图标重新设置。

如果想让每两条数据为一组,用横线隔开,可以借助list的选项sep(#)[9]来实现:

. list province commtype sex in 1/7, sep(2)

    +------------------------------------------------+
    | province              commtype  sex |
    |------------------------------------------------ |
 1. |  内蒙古                集镇社区   女 |
 2. |   湖北          单一或混合的单位社区   男  |
    |------------------------------------------------ |
 3. |   山东          单一或混合的单位社区   女 |
 4. |   吉林      未经改造的老城区(街坊型社区)  男 |
    |-------------------------------------------------|
 5. |   贵州          单一或混合的单位社区   女 |
 6. |   江西    新近由农村社区转变过来的城市社区   女 |
    |-------------------------------------------------|
 7. |   广东      未经改造的老城区(街坊型社区)  女 |
    +-------------------------------------------------+

图3-6 命令list的帮助文件

这次的输出结果就是两条数据为一组,关于list的更多内容,请在Stata中输入help list,阅读list的完整帮助文件。

在汉语中,语法指的是在一句话里每个字/词的排列位置。在Stata里,命令语法的含义和汉语中的基本一致,指的是命令、变量、条件、选项和标点符号的位置排列规则。

1.命令的语法结构

Stata的一个强大之处就在于命令语法的一致性。大多数的Stata命令都遵循下面的语法。

[ prefix: ] command [varlist] [if] [in] [weight] [ ,options] 前缀 + 命令主体 + 变量/变量串 + 条件 + 范围 + 权重 +“,”+ 选项

下面是命令list的语法结构:

list [varlist] [if] [in] [,options]

命令主体是:list

命令作用对象(变量、变量串、文件):这里的作用对象是varlist(变量串,即可以同时列出多个变量)

条件:if条件和in条件

逗号后面是选项:options,该命令支持的选项很多,常见的有abbreviation(#) 、noobs、separator(#)、sepby(varlist)。绝大多数的Stata命令都有很多可选择的选项,用户可根据需要自行选择添加。所有命令的选项都可以在Stata的帮助文件中找到。

注意:list的语法结构中没有[weight],表明该命令无法用权重这个选项。

2.命令中的下画线“_”

在Stata里,很多命令/选项都可以缩写,但不能无限缩写,那么,每个命令/选项最少可以缩写到几个字母呢?每个命令/选项下的下画线部分就表示该命令可以最少缩写到哪几个字符。如果一个命令/选项的下面没有下画线,就表明该命令不能被缩写。以list命令为例,可以把命令list缩写成一个英文字符“l”,可以把它的选项abbreviation(#)缩写成ab(#),但不能缩写选项sepby(varlist2)。命令list的帮助文件如图3-7所示。

图3-7 命令list的帮助文件

3.命令中的[ ]

在Stata的命令中,用中括号“[ ]”括起来的都是可选项。

补充:Stata用中括号表示下标var[ _n–1 ]、var[_n+1]、var[_n]、var[3]。

4.命令中的字体

和中括号相对应的是字体倾斜与否。斜体表示可选可不选,非斜体代表必选。也就是说,用户如果要用这条命令,所有非斜体的命令必须都要用上,否则该命令将无法运行。

5.帮助文件中的蓝色字体

在Stata的帮助文件中,有些单词或词组显示为蓝色,什么意思呢?蓝色的字体表示链接,单击蓝色字体会打开相对应的链接,这也是Stata帮助文件的强大之处。

6.命令中的空格

Stata一般情况下,每个单词或符号的后面都加1个空格,两个单词之间一定要加1个空格,否则Stata会把这两个单词看成是一个单词,导致无法识别。

Stata自带帮助文件,用命令help即可调用相关的帮助文件。注意,这是一个在线帮助文件,因此使用时用户要确保自己的电脑处于在线状态。Stata的帮助手册编写得非常完备且详尽,无论是新用户,还是高级用户,都能从中找到自己需要的信息和技术。

要调用Stata的帮助文件,方法很简单,直接在命令窗口输入命令help keywords,这里的关键词指的是用户想让Stata实现的功能,如描述数据,输入help describe,即可调出和描述数据有关的帮助文件,如图3-8所示。

图3-8 命令describe的帮助文件

对用户来说,Stata的帮助文件是极好的自学帮助参考手册。实际上,用Stata做数据管理时遇到的绝大多数问题,Stata都提供了解决方案。很多用户无法解决的问题,都是因为用户不知道Stata里有相应的技术和知识,或者找不到。因此,用户使用Stata做数据管理时,一定要养成勤用、善用Stata帮助文件的习惯。

和以前的版本相比,Stata 14.1最大的变化莫过于编码(详见第4章)。

除了Stata的帮助文件外,随着Stata应用的普及性不断提高,用户越来越多,市面上的著作也很多,但良莠不齐。Stata公司有自己的出版社(Stata Press),网址是:http://www. stata-press.com/,该出版社出版的相关书籍都不错。

用户编写的程序(user-written programs),又称附加程序(add-on programs)。Stata的一大优势是:除了Stata自带的功能和命令外,所有的用户都可以开发、编写、发布自己编写的Stata程序。比如:本书在附录“国家行政区划代码及转码小程序”详细讲解了作者本人写的一个关于中国地区代码转换的小程序。这些程序需要用户自行下载安装。具体操作方法是:首先,用命令search keyword搜索,这个搜索引擎会搜出所有和keyword有关的相关资料,从中找到安装包,单击“install”,Stata会自动安装这个程序,安装完成后给出安装成功提示,即可在电脑上使用这个程序了。

Stata的官网www.stata.com/support/提供了很多学习资源和学习途径,包括上面提到的书籍、Stata的在线课程、Statalist、Stata Journal以及其他包含Stata信息的网站。其中,Statalist(www.statalist.org)是独立运作的一个服务器,托管在哈佛大学的公共卫生学院。它给全世界的Stata用户提供了一个公开交流的网络平台,该平台非常活跃,在这个网络社区中充满着丰富且详尽的Stata知识和以往用户提到的各种问题,无论是初学者,还是专家,都可以通过浏览问题列表、阅读以往资料,来学习自己感兴趣的知识和技术。

Stata Journal(http://www.stata-journal.com/)刊登的都是用Stata做分析的文章,一年四刊,每季一刊,现刊需要付费订阅,但用户可以从网站上免费下载3年前的文章。

Stata里有些命令看起来很复杂,但理解起来很容易,毕竟编写Stata软件的工程师也是人类,写代码时也都是基于常识和人类的思维逻辑,学习时切忌死记硬背,理解了每个命令背后隐藏的道理和逻辑,自然就能记住这个命令。

中国综合社会调查(China General Social Survey,CGSS)始于2003年,是一项大型学术研究调查项目。CGSS发源于美国的GSS(General Social Survey,GSS),GSS是美国民意调查中心(National Opinion Research Center, NORC)运行时间最长的一个调查项目,该调查项目在全世界都享有盛誉,是国际社会调查界的旗舰。自1972年开始,该项目旨在通过收集当下美国社会的数据,来考察美国的社会变迁,研究美国社会日益增加的复杂性,解释人们的态度、行为和特征的变化趋势,考察整个社会的结构和功能,以及次级群体在社会中扮演的角色,进行国际比较。GSS的另一个目的是生产出高质量的数据,而且所有的学者、政策制定者及其他相关人员都能以最低的成本和等待时间来获取GSS数据(http://gss.norc.org/)。在美国,除了美国人口普查数据,GSS数据是社会科学界使用频率最高的一个数据来源。

为了给社会科学界提供一项高质量的社会调查数据,中国人民大学社会学系的李路路教授和当时在香港科技大学的边燕杰教授决心做中国自己的GSS,为学术界提供一个全国范围的、随机抽样的、高质量的调查数据。自2003年开始截止到本书出版前,一共完成11次调查。在第一个周期里,共完成5年调查,分别是2003、2004、2005、2006和2008年,除2004年的数据外,剩下4年的数据都已向全社会免费公开,用户可以到中国国家调查数据库(China National Survey Data Archive,CNSDA)注册下载。第二个周期计划从2010~2019年,为期10年,截止到2015年共完成6次调查,其中2010、2011、2012、2013共4年的数据也已经在CNSDA的网站上免费发布。

CGSS采用多阶段、分层次、随机抽样方法,获取的数据在全国范围具有代表性,但不能在省份这个层面上有代表性,因此不能用CGSS数据做31个省份之间的比较。

CGSS的问卷由两个部分构成:主体模块(primary module,即A部分)和主题模块(topic module,即B-Z部分)。历年的调查问卷中都包含A部分,不同之处在主题模块,见表3-4。

表3-4 CGSS2003——2013问卷基本内容及相关信息

期次 执行年份 调查地点(城乡)

居民问卷

 

村居委会问卷

调查模块 调查主题 是否发布 每个模块的样本量 每个模块的变量数 调查模块 调查主题 是否发布 每个模块的样本量 每个模块的变量数

第一期

2003

城市

封面部分

调查信息

5894

6

 
 

A

住户成员

5894

79

B

个人基本情况

5894

33

C

户口变动

5894

32

D

家庭情况

5894

73

E

社会交往

5894

90

F

教育经历

5894

116

G

职业经历

5894

149

H

获得目前这份工作的情况

5894

43

I

评价与认同

5894

15

J

行为与态度

5894

52

2003

城市

附加部分

访问员填写
部分

NA

NA

 
   

事后添加

权重

5894

6

2004

   

2005

城乡

封面部分

调查信息

10372

5

封面

调查信息

401

8

 

A

住户成员

10372

118

A

村基本情况

401

41

B

个人基本情况

10372

31

B

村财务

401

33

C

家庭情况

10372

48

C

村支书或村主任情况

401

44

D

心理健康

10372

9

 

E

经济态度与行为评价

10372

83

F

社区生活与治理

10372

80

G

农村治理

4266

126

附加部分

访问员填写部分

NA

NA

事后添加

权重

10372

4

2006

城乡

封面部分

调查信息

10151

6

 
   

A

个人基本情况

10151

28

   

B

工作经历

10151

70

   

C_1

目前的工作境况

6749

93

   

C_2

企业改制/机构改革情况

5281

46

   

D

婚姻、家庭及家庭经济活动

10151

670

   

E

态度/意识/认同与行为

10151

299

   

附加部分

访问员填写部分

NA

NA

2006

城乡

事后添加

权重

10151

3

 
   

家庭问卷

       
   

封面部分

调查信息

3208

10

   

A+

配偶生日

2781

2

   

B+

家庭成员情况

3208

73

   

C+

代际关系

3207

24

   

D+

家人评估及其他

3207

18

   

E+

家庭婚姻与性别角色

3207

17

   

F+

家庭价值

3207

20

   

G+

择偶史

3203

6

   

H+

夫妻关系

3196

17

   

J+

基本情况

3207

9

   

K+

其他

3207

11

   

附加部分

访问员填写部分

NA

NA

2007

   

2008

城乡

封面部分

调查信息

6000

7

         
 

A

个人基本情况

6000

51

 

B

家庭基本情况

6000

87

C

教育及工作

6000

1203

D

性格与态度

6000

24

E

社会交往与求职

6000

130

附加部分

访问员填写部分

NA

NA

事后添加

权重

6000

1

2008

城乡

B卷:

         
 

封面部分

调查信息

3010

2

F

态度和看法

3010

53

G

全球化

3010

104

2009

   

第二期

2010

城乡

封面部分

调查信息

11783

6

封面

调查信息

478

15

 

A

主模块

11783

365

A

村/居委会基本情况

478

74

B

农村模块

5660

45

B

村委会基本情况

478

26

C

家庭支出

11783

60

C

被访者基本信息

478

12

D

社会态度和社会行为

11783

137

 

L

环境

3672

90

M

健康

3866

81

N

宗教

4186

76

Q

调查对象的基本信息

4231

7

附加部分

访问员填写部分

NA

NA

事后添加

权重

11783

2

2011

城乡

封面部分

调查信息

5620

7

封面

调查信息

236

15

 

A

主模块

5620

333

A

村/居委会基本情况

236

74

B

社会认知与社会态度

5620

107

B

村委会基本情况

236

26

C

住房

5620

72

C

被访者基本信息

236

12

D

健康、医疗与医保

5620

73

 

附加部分

访问员填写部分

NA

NA

2012

城乡

封面部分

调查信息

11765

21

封面

调查信息

464

15

 

A

主模块

11765

436

A

村/居委会基本情况

464

74

N

社会网络与社会资本

5819

108

B

村委会基本情况

464

26

Q

社会捐赠与志愿服务

5789

25

C

被访者基本信息

464

12

M

家庭角色

5946

63

 

P

城市文化

5946

31

附加部分

访问员填写部分

NA

NA

2013

城乡

封面部分

调查信息

11438

7

封面

调查信息

452

15

 

A

主模块

11438

450

A

村/居委会基本情况

452

74

B

CGSS十年回顾

11438

118

B

村委会基本情况

452

26

C

公共服务

5772

66

C

被访者基本信息

452

12

D

公民道德状况

5666

79

 

附加部分

访问员填写部分

NA

NA

使用CGSS数据的注意事项

(1)样本代表性。CGSS采用多阶分层随机抽样方法,收集上来的数据只能用于推论全国,无法用于推论各省份。切记:不要用CGSS数据做分省份比较研究。

(2)样本量。同一年度的CGSS数据,在不同模块上的样本量可能不一样。CGSS的问卷结构是:主体模块 + 主题模块。其中主体模块是全样本数据,但主题模块的样本只是总样本中的一个子样本。也就是说,在全部调查对象中,所有人都会回答主体模块的问题,但只有一部分人会回答主题模块的问题(如CGSS2006的城乡居民数据有10151条数据,EASS模块——家庭模块——则只有3208条数据),而且不同的主题模块回答的人数也有微小差异(如CGSS2010的城乡居民数据有11783条数据,回答M部分——健康模块——的样本有3866个,而回答N部分——宗教模块——的样本有4231个)。

(3)变量名。为方便查阅数据,CGSS历年数据的变量名都以其对应的问卷中的题号为命名基准,这样的命名方式也方便用户把数据和问卷对应起来。

(4)职业和行业编码。为了更加准确地测量调查对象的行业和职业,对这两个变量CGSS采用间接测量的方法,具体操作方法是:在历年调查中,行业和职业都是开放题,由访问员把被访者从事的行业相关信息和职业相关信息填入相应的空格上,如下所示:

A59d. 您目前工作的具体职业是:

    具体职业名称[              ]

    具体工作内容[              ]

          [              ]

根据收集的文本资料,基于ISCO88,由至少2名专业人员进行编码,把文本资料转换成定量资料,以便研究者使用和分析。CGSS 项目组只发布编好码的行业和职业,不公布相应的开放题。

[1] 中国的小学数据课本中就包含了统计、调查等方面的基础知识。

[2]马丁•丹斯考姆. 做好社会研究的10个关键[M]. 杨子江,译. 北京:北京大学出版社,2008.

[3]这4个效度的详细内容,请参阅《社会研究方法(第11版)》的第146~147页,【美】艾尔•芭比著,邱泽奇译. 华夏出版社,2014

[4]几何平均数,调和平均数.

[5]//是给stata命令本身添加注释的一种方法,如果想给某条命令加注释,就可以在这条命令后面输入空格+//+注释。

[6]星号+注释是一种给do文件加注释的方法。

[7]不同版本的Stata能保存的最大字符数有差异,比如在Stata 12中,字符型变量最多只能保存244个字符,但是在Stata14中,字符型变量最多能保存2000000000个字符,而且还能保存二进制数。用户在创建变量时一定要注意,不要因为存储空间不足导致字符型数据丢失。

[8]通常的叫法是:`if`条件,`in`范围。

[9]在Stata的命令中,井号“#”代表数字。


相关图书

精通 Power Query
精通 Power Query
机器学习与数据挖掘
机器学习与数据挖掘
Power BI 零售数据分析实战
Power BI 零售数据分析实战
数以达理:量化研发管理指南
数以达理:量化研发管理指南
精通Excel数据统计与分析
精通Excel数据统计与分析
科学知识图谱:工具、方法与应用
科学知识图谱:工具、方法与应用

相关文章

相关课程