社会统计分析与数据处理技术（Stata）4 变量的生成与处理.ppt

上传人：laozhun

文档编号：2340229

上传时间：2023-02-13

格式：PPT

页数：50

大小：371KB

《社会统计分析与数据处理技术（Stata）4 变量的生成与处理.ppt》由会员分享，可在线阅读，更多相关《社会统计分析与数据处理技术（Stata）4 变量的生成与处理.ppt（50页珍藏版）》请在三一办公上搜索。

1、第四章变量的生成与处理,导论,Stata 对数据的处理是以变量为前提的若没有需要分析的变量，则Stata将一无用处熟悉变量的内容和分布、生成新变量、改变旧变量等是处理数据的第一步,本章主要内容,4.1.变量的测量水平（measurements）4.2.新变量的生成、规则及注意事项4.3利用系统变量或下划线变量生成新变量4.4生成字符型变量4.5生成数值型变量4.6生成分类变量4.7生成虚拟变量,4.8.Egen命令（Extended Generate）4.9日期变量（Date Variables）4.10变量类型的更换4.11给数据、变量和变量的属性贴标签（label data,label v

2、ariable；label define）4.12重新命名变量4.13变量的格式4.14生成随机数,4.1.变量的测量水平（measurements）,离散和连续测量离散方式（discrete measure）：由定性测量和定序测量组成；适用于低层次数据连续方式（continuous measure）：由定距测量和定比测量组成。适用于高、低层次数据在这四种测量中，层次从高到低的排序依次是：定性、定序、定距和定比,定性和定序测量,定性测量（nominal measure）：变量的属性具有完备性和排他性特征，是表达概念特征的名称或标签，描述属性之间的差异。有别于定序、定距和定比测量性别，政治党派，

3、民族，宗教流派，出生地，等等定序测量（ordinal measure）：描述变量属性的相对程度或排行序列，但数值之间的差别既无法确定、也无意义：社会经济地位的高、中、低教育程度的文盲、小学、初中、高中和大学非常同意、同意、一般、不同意、非常不同意,定距和定比测量,定距测量（interval measure）：变量的属性可以按顺序排列；相邻属性之间的距离是相等且有实际意义的华氏温度计。30度和40度之间的距离等于50度和60度之间的距离“0”没有意义。华氏的60度并不是30度的一倍，零度并不意味着没有温度，零下30度也不等于比没有热度低30度。摄氏温度计的原理也是如此定比测量（ratio mea

4、sure）连续测量。数值之间的距离是连续的、等距离的可描述前面三种测量提到过的属性以真实的“0”为基础，“0”有意义。如：“0”岁表示孩子刚出生；“0”收入表示没有任何收入。与定距测量的主要区别在于“0”的意义的有无,区分变量测量水平的意义,统计程序的需要：每一种统计程序都基于一定的假设和条件有些统计程序（如，%或众数）适用于所有类型数据；其他统计程序（如，均值、标准偏差、相关关系）仅适用于定距或定比数据某些统计程序稳健，即便一些基本的假定被违反，分析结果也不受影响；另一些统计程序的假定一旦被违反，其结果就变得无意义对定性数据，计算均值毫无意义模型选择的需要：数据形式和变量的测量直接影响到模型

5、的选择一般情况下，最好是收集高层次的数据。高层次数据可转换为低层次数据,4.2.新变量的生成、规则及注意事项,Stata的变量类型,Stata软件生成三类变量：numeric（数值型）变量，string（字符型）变量（相当于定性变量）和date（日期）变量。虽然日期变量以数值型变量的技术记录、存储，但二者的用途却不同数值型变量包括定距和定比变量。可以是整数、小数、负数和正数。数值型变量可以有多种存储方式（Storage Types）用str类型保存的定性等分类变量也可区分为多种形式，从str1-str244,Stata的日期变量,日期（date）变量是数值型变量的一个特例。它们通常以字符的形式

6、输入(如:01JAN1992 or 01/01/92)，但必须以数值型数据存储才能有用Stata有几个命令可以工作于日期和时间依赖（time-dependent）数据Stata将所有的日期保存为从1960年1月1日以来的天数或月份、季节等。此前的日期是负值，此后的是正值。SAS使用同样的日期方式，但其起始时间是1582年的10月14日。Excel使用1900年1月1日为默认起始日。如果读入Excel数据，则以字符型变量输入日期，并重新格式日期,生成变量的路径,Data Create or change variables,生成变量的窗口,Data Create or change variab

7、les Create new variable,基本命令,Stata有四个基本的生成和修改变量的命令：gen、egen、replace和recode.gen和egen分别是generate和extended generate的缩写，它们用于生成新变量.replace和recode用来改变现存变量的属性或数值.replace需要与gen一起使用；二者的区别在于，gen用于生成新变量，replace用于重新定义已经存在的变量.recode也可以与gen一起使用,基本语法,.gen 变量名=表达式1.replace 变量名=表达式2 if 条件：生成新变量或替代现存变量取值的基本命令：新变量或其取值

8、将被替换的变量的名称：在gen命令的取值不同于在replace命令的取值：替换原有变量的取值必须满足if指定的条件,*yr of schooling recoded（这是一个注释；*代表注释）gen edu=0replace edu=1 if yrsch=11replace edu=2 if yrsch=12replace edu=3 if yrsch=13replace edu=4 if yrsch=14replace edu=5 if yrsch=15replace edu=6 if yrsch=16replace edu=7 if yrsch=21replace edu=8 if yrs

9、ch=22replace edu=9 if yrsch=23,replace edu=10 if yrsch=24|yrsch=27replace edu=11 if yrsch=25|yrsch=28replace edu=12 if yrsch=26|yrsch=29replace edu=13 if yrsch=31replace edu=14 if yrsch=32replace edu=15 if yrsch=33replace edu=16 if yrsch=34replace edu=17 if yrsch=35replace edu=18 if yrsch=36replace

10、edu=.if yrsch=.|yrsch=-9tab1 yrsch edu*查看变量的生成是否成功,变量生成的规则（I）,生成新变量、重新定义旧变量时需遵循的一些基本规则：变量的名称可长达32个字符，必须以字母、汉字或字符（，_，#，$等）开头（不能使用空白字符或!、?等特殊字符）。变量最后一个字符不能是句号变量的名称必须唯一，不能有两个相同的变量名Stata区分大小写，对大写、小写敏感：Variable 不能写成 variable，反之亦然使用描述性的变量名字：“变量a”这个名称没有任何意义。调查问题是变量名称的很好选择,变量生成的规则（II）,字符型变量的取值属性置于双引号中；其取值在I

11、ntercooled版本可多达80个字符，在Special Edition版本可达244个字符。超过该极限的字符都被自动舍去数值型变量的缺失值用一个实心小圆点（.）或在26个字母前加一个实心小圆点（如.a,.b,.c，.z）表示。后者属于延伸（extended）缺失值，对Refused（拒绝回答）或Not Applicable（不适用）进行编码时十分有用字符型变量的缺失值以双引号表示，引号中什么也没有。但这与空白不是一回事在Stata中，缺失值被默认为大于正数的最大值；在使用if条件从句和排序数据时尤为重要,变量生成的注意事项,尽量避免使用同一变量名称。换言之，不要使用新变量取代旧变量。保持原

12、始变量有助于检验我们的命令是否正确充分了解原始变量的分布以及每个数值代表的含义遵循不重不漏（exhaustive and mutually exclusive）原则（详见“生成分组变量”一节）在变量生成后，将原始变量和新变量的取值进行对比，检查是否有误注意原始变量的缺失值,4.3利用系统变量或下划线变量（_n和_N）生成新变量 Stata有几个下划线变量（_variables，读为“underscore variables”），因包含下划线而得名。这类变量并不出现在Stata的Variables（变量）窗口中，故又称系统变量。其中，经常使用的有_n 和_N。系统变量_n 和_N对于数据的管理和

13、处理十分有用，尤其是与特殊选项by同时使用时,系统变量 _n,_n 是指当前的观察值，即独一无二的观测序号，从1到_N(_N=总样本）_n是Stata系统内部独特的辨识器，标志从第一个观察值开始直到最后一个观察值（_N）的序列_n=1为第一个观测，_n=2为第二个观测，_n=_N是最后一个观测该系统变量适于（1）指示观察值；（2）生成系列数值；（3）生成其他变量,使用系统变量_n指示观察值,系统变量_n表示每个观察值的位置（numbering observations）。其原则是：当前观察值：_n 总观察值（最后一个观察值_n）：_N第一个观察值：1 最后一个观察值：_N 滞后一个(lag)观

14、察值：_n-1 前移一个(lead)观察值：_n+1 第27个观察值：27,假如现有以下数据：+-+|province personid homesize age girl siblings|（省份）（个人ID）（家庭规模)（年龄）（女孩）（姊妹数量）|-|1.|21 2106018504 50 5 girl 1|2.|35 3505154103 100 18 boy 0|3.|32 3205093703 246 8 boy 0|4.|37 3708156203 60 9 boy 0|5.|45 4452082404 20 6 girl 3|6.|35 3501117305 25 13 gir

15、l 2|7.|45 4526057606 90 10 girl 3|8.|32 3209163903 25 2 boy 0|9.|37 3702093304 68 7 boy 1|10.|37 3704057503 80 20 boy 3|+-+现在想看看每个孩子在省内的排序,使用系统变量_n生成新变量,步骤1：对province（即“关键变量”）进行排序.sort province步骤2：生成感兴趣的变量.by province:gen order=_n：按province的分类进行排序和计算：生成新变量的基本命令：新变量的名称：新变量的取值等于同一province内观察值的序次步骤3：使用

16、频数分布查看生成的结果是否正确.tab order,使用系统变量_N生成新变量,系统变量_N代表样本总数。最后一个样本_n即是_N使用前面的数据，看看每个省共有几个孩子在样本中步骤1：对province进行排序步骤2：生成感兴趣的变量。其命令是：.by province:gen ceb=_N 步骤3：查看结果正确与否.tab ceb,生成滞后（lag）变量或移前变量（lead）,在分析某些类型数据（包括常用的家庭成员数据和纵向数据）的过程中，常常需要根据研究问题将一个样本的取值转移到上一个（或下一个）观察值中.gen a=b_n-1.gen a=b_n+1：需要生成的新变量的名称：现有变量的

17、名称：将现有变量的取值下移一行（_n-1）或前移一行（_n+1）的基本命令,.gen a=age_n-1(1 missing value generated).gen b=age_n+1(1 missing value generated).list+-+|province personid homesize age girl siblings order a b|-|1.|21 2106018504 50 5 girl 1 1.2|2.|32 3209163903 25 2 boy 0 1 5 8|3.|32 3205093703 246 8 boy 0 2 2 18|4.|35 35051

18、54103 100 18 boy 0 1 8 13|5.|35 3501117305 25 13 girl 2 2 18 9|10.|45 4526057606 90 10 girl 3 2 6.|+-+,使用系统变量 _n或 _N检查重复样本,可利用系统变量_n和_N的滞后和前移功能，检查数据中是否存在重复样本第一步：对关键变量（ID）进行排序第二步：使用_n或_N 将该ID的数值下置一行，如果下置的数值与当前ID相等的话，则该样本是重复样本在纵向数据中，一个样本可以有多个记录。比如，如果调查共进行了四次，则一个样本最多可有四个记录。这时，我们需要同时利用样本编码（ID）和调查时间为依据，找

19、出重复样本,4.4.生成字符型变量的命令,假如需要生成一个“男孩”的字符型变量：.gen boy=nanhai在字符型变量中，“=”后面表达式的内容需置于双引号中并不是每个样本都是男孩，故需替代上述命令的部分结果.replace boy=nvhaiif girl=1命令replace与if条件句相结合，改变变量的取值。当变量girl的取值为1时，将变量boy的取值替换为nvhai，其他值不变定义缺失值.replace boy=none if boy=,4.5生成数值型变量,使用recode,gen命令生成新变量,.recode 原变量（原变量取值=新变量取值）*=其他取值,gen 新变量：给变

20、量重新赋值的命令：现有变量的名称：现有变量的取值：新变量的取值；和是一个整体：*符号表示所有其他没有列出的数值，包括缺失值；recode与gen之间有逗号（,）隔开：生成新变量的命令：新变量的名称,以本章数据中的变量“yrsch”为例。前面使用genreplace的方法在“yrsch”的基础上生成变量“edu”；现在使用另一种简便的方法生成“edu”由于变量edu已经存在，首先需要删除该变量：.drop edu.recode yrsch 0=0 11=1 12=2 13=3 14=4 15=5 16=6 21=7 22=8 23=9 24 27=10 25 28=11 26 29=12 31=

21、13 32=14*=.,gen(edu)该命令在原变量yrsch的基础上生成一个新变量（edu)新变量对原变量的取值重新编码。原变量照旧保存着若无gen（edu）部分，则仅取代原有变量的取值,使用数学表达式生成新变量,任何有效的数学表达式在生成变量时都适用。既可以是加、减、乘、除的单独表达式，也可以是混合表达式：.gen a=b+c+d 加法：将变量b，c，d的数值累加起来，生成新变量a.gen a=b-c减法：将变量b的数值减去变量c的数值，得到变量a.gen a2=a*a乘法：该命令生成新变量a2；a*a是a x a的表达方式.gen double a=b/c除法：用变量b的数值除以变量

22、c的数值，得到新变量a。该变量定义为double类型.gen a=b/(c2)新变量a的取值等于变量b的取值除以变量c取值的平方,生成分组变量：不重原则,不重是指每组之间必须相互排斥（mutually exclusive）。每个观察到的样本必须且只能有一个编码。比如：若一个孩子目前是10岁，他就不可能同时是11岁在一个数据中，样本的受教育年限从0-18年。现需要将其分为4组：文盲和小学（06）、初中（79）、高中（1012）、大学及以上（13）。若将教育程度划分成了0-7年、7-9岁、10-12年、13年以上的话，则受过7年教育的样本被同时包括在两个组中，违反了不重的原则,生成分组变量：不漏原

23、则,不漏是指详尽分类（exhaustiveness）。新变量的类别应该包括数据中的每个观察（observation）样本“婚姻状态”通常被分为在婚、从未结过婚、离婚和丧偶。该分类可能违反了不漏的原则，若调查数据中有同姓婚姻的话。解决方法之一是增加“其他”选项，包括其他类型婚姻若“同姓婚姻”是研究的重点，或具有理论上重要性的话，“其他”分类就不合适了教育数据中，若将教育划分为0-5年、7-9年、10-12岁、13年及以上，则受过6年教育的样本就被遗漏了,4.6生成分类变量,*age group.gen agegrp=0.replace agegrp=1 if age=0&age=5&age=10

24、&age=15.replace agegrp=.if age=.egen agegrp=cut(age),at(0,5,10,15,20),4.6,4.7生成虚拟变量（dummy,dichotomous variable）,方法1,.gen 新变量名=b 限制条件：生成新变量的基本命令：新变量名：旧变量名：当b满足某种条件时，生成新变量比如：.gen xiaoxue=edu7 或.gen xiaoxue=edu=6 或.gen byte xiaoxue=edu7 或.gen byte xiaoxue=edu6,方法2,.gen 变量名 1 if取值为1的限制条件.replace（变量名0 if

25、取值为0的限制条件比如：.gen xiaoxue=1 if edu=7 若edu大于或等于7，则xiaoxue等于0.replace xiaoxue=.if edu=.若edu等于.，则xiaoxue等于.（缺失）,方法3,虚拟变量往往是根据某（几）个已知变量的取值生成的.tab 已知变量名,gen 新变量名基于某个已知变量，生成一组虚拟变量虚拟变量的数目因已知变量的分类而异若现存变量有两个取值，则生成两个虚拟变量若现存变量有三个取值，则生成三个虚拟变量若现存变量有n个取值，则生成n个虚拟变量新生成的虚拟变量有相同的前缀，也就是新变量名，但尾缀相异，由已知变量名的取值决定,4.8.egen命令

26、（Extended Generate）,Egen是Stata最强大、最有用的命令之一。与generate一样，该命令用于生成新变量，但其功能远胜于此其特点之一是拥有强大的函数功能虽然gen可以支持一些函数，但egen支持额外的函数。egen可以实现许多gen难以达到的目的。比如新生成的变量的取值是另一个变量每个类别的均值（如，男性和女性的收入均值）.egen还可以通过计算另一个变量符合某种特征的数值或某些观察值来生成新变量,使用egen生成分类变量,.egen新变量名=cut旧变量名,at旧变量取值的下限：生成新变量的命令参数：生成的新变量名称：按照指定的取值下限分割旧变量；函数cut在将数值

27、型数据分解成分类变量的时候非常有用，将一个连续变量的数值按照选项at()的具体值将该变量分成几类；at()指名每个组群的最小值：旧变量名：现有变量取值的下限,假如有以下数据：Age|Freq.Percent Cum.-+-2|1 10.00 10.00 5|1 10.00 20.00 6|1 10.00 30.00 7|1 10.00 40.00 8|1 10.00 50.00 9|1 10.00 60.00 10|1 10.00 70.00 13|1 10.00 80.00 18|1 10.00 90.00 20|1 10.00 100.00-+-Total|10 100.00,现将该连续变

28、量生成一个分类变量：.egen agegrp1=cut(age),at(2,7,13,21)该命令生成分类变量agegrp（年龄组）新变量包含三组26岁712岁1320岁,使用egen计算描述性统计量（I）,.egen a_mean=mean(a),by(b)：生成一个均值的变量：生成均值的命令的一部分：按照变量b的分类生成均值该命令生成的变量是按变量b的分类计算的均值.egen avg=rmean(b c)这里，rmean告诉Stata，生成一个变量b和c的行均值变量（avg），忽视缺失值。不可与选项by连用若在rmean的后面指定两个变量，某个变量的一些观察值有缺失值，则Stata按照没

29、有缺失值的样本计算均值,使用egen计算描述性统计量（II）,.egen zweight=std(weight)生成体重的标准数值.egen numobs=count(personid),by(personid year)统计量count计算每一年观察（observations）的样本，从而了解在每年的调查中，有哪些相同的样本.egen还可以是生成其他统计量，包括min（最小值）、max（最大值）、sd（标准偏差）、median（中位数）、kurt（峰度）、iqr（四分位差）等在计算统计量时，egen可以与by选项连用,4.11.给数据、变量和变量的属性贴标签（label data,label

30、 variable；label define）,对数据库作说明、给变量下定义,对数据库作说明。比如：.label data Chapter4；创建于2006年9月，最近的修改日期为2007年1月“.label data 是说明数据的命令引号里的内容是对数据库说明的具体内容给变量下定义.label variable province“被调查省份“.label variable 是定义变量的命令province 是需要定义的变量名引号里的内容是变量的标签,给变量的属性下定义,步骤1：给变量的取值贴标签.label define urban 0 rural 1 urban：给变量的取值贴标签的基本命令：变量名：变量的现有取值：取值的标签步骤2：将取值标签指定给变量.label values urban urban：将取值与标签结合的基本命令步骤3：数值与标签（可有可无）.numlabel urban,add mask(#.),删除变量的定义或标签,变量province已经定义，现需将其删除：.label variable province 删除标签.label drop urban,