社会统计分析与数据处理技术(Stata)4 变量的生成与处理.ppt
《社会统计分析与数据处理技术(Stata)4 变量的生成与处理.ppt》由会员分享,可在线阅读,更多相关《社会统计分析与数据处理技术(Stata)4 变量的生成与处理.ppt(50页珍藏版)》请在三一办公上搜索。
1、第四章变量的生成与处理,导论,Stata 对数据的处理是以变量为前提的若没有需要分析的变量,则Stata将一无用处熟悉变量的内容和分布、生成新变量、改变旧变量等是处理数据的第一步,本章主要内容,4.1.变量的测量水平(measurements)4.2.新变量的生成、规则及注意事项4.3利用系统变量或下划线变量生成新变量4.4生成字符型变量4.5生成数值型变量4.6生成分类变量4.7生成虚拟变量,4.8.Egen命令(Extended Generate)4.9日期变量(Date Variables)4.10变量类型的更换4.11给数据、变量和变量的属性贴标签(label data,label v
2、ariable;label define)4.12重新命名变量4.13变量的格式4.14生成随机数,4.1.变量的测量水平(measurements),离散和连续测量离散方式(discrete measure):由定性测量和定序测量组成;适用于低层次数据连续方式(continuous measure):由定距测量和定比测量组成。适用于高、低层次数据在这四种测量中,层次从高到低的排序依次是:定性、定序、定距和定比,定性和定序测量,定性测量(nominal measure):变量的属性具有完备性和排他性特征,是表达概念特征的名称或标签,描述属性之间的差异。有别于定序、定距和定比测量性别,政治党派,
3、民族,宗教流派,出生地,等等定序测量(ordinal measure):描述变量属性的相对程度或排行序列,但数值之间的差别既无法确定、也无意义:社会经济地位的高、中、低教育程度的文盲、小学、初中、高中和大学非常同意、同意、一般、不同意、非常不同意,定距和定比测量,定距测量(interval measure):变量的属性可以按顺序排列;相邻属性之间的距离是相等且有实际意义的华氏温度计。30度和40度之间的距离等于50度和60度之间的距离“0”没有意义。华氏的60度并不是30度的一倍,零度并不意味着没有温度,零下30度也不等于比没有热度低30度。摄氏温度计的原理也是如此定比测量(ratio mea
4、sure)连续测量。数值之间的距离是连续的、等距离的可描述前面三种测量提到过的属性以真实的“0”为基础,“0”有意义。如:“0”岁表示孩子刚出生;“0”收入表示没有任何收入。与定距测量的主要区别在于“0”的意义的有无,区分变量测量水平的意义,统计程序的需要:每一种统计程序都基于一定的假设和条件有些统计程序(如,%或众数)适用于所有类型数据;其他统计程序(如,均值、标准偏差、相关关系)仅适用于定距或定比数据某些统计程序稳健,即便一些基本的假定被违反,分析结果也不受影响;另一些统计程序的假定一旦被违反,其结果就变得无意义对定性数据,计算均值毫无意义模型选择的需要:数据形式和变量的测量直接影响到模型
5、的选择一般情况下,最好是收集高层次的数据。高层次数据可转换为低层次数据,4.2.新变量的生成、规则及注意事项,Stata的变量类型,Stata软件生成三类变量:numeric(数值型)变量,string(字符型)变量(相当于定性变量)和date(日期)变量。虽然日期变量以数值型变量的技术记录、存储,但二者的用途却不同数值型变量包括定距和定比变量。可以是整数、小数、负数和正数。数值型变量可以有多种存储方式(Storage Types)用str类型保存的定性等分类变量也可区分为多种形式,从str1-str244,Stata的日期变量,日期(date)变量是数值型变量的一个特例。它们通常以字符的形式
6、输入(如:01JAN1992 or 01/01/92),但必须以数值型数据存储才能有用Stata有几个命令可以工作于日期和时间依赖(time-dependent)数据Stata将所有的日期保存为从1960年1月1日以来的天数或月份、季节等。此前的日期是负值,此后的是正值。SAS使用同样的日期方式,但其起始时间是1582年的10月14日。Excel使用1900年1月1日为默认起始日。如果读入Excel数据,则以字符型变量输入日期,并重新格式日期,生成变量的路径,Data Create or change variables,生成变量的窗口,Data Create or change variab
7、les Create new variable,基本命令,Stata有四个基本的生成和修改变量的命令:gen、egen、replace和recode.gen和egen分别是generate和extended generate的缩写,它们用于生成新变量.replace和recode用来改变现存变量的属性或数值.replace需要与gen一起使用;二者的区别在于,gen用于生成新变量,replace用于重新定义已经存在的变量.recode也可以与gen一起使用,基本语法,.gen 变量名=表达式1.replace 变量名=表达式2 if 条件:生成新变量或替代现存变量取值的基本命令:新变量或其取值
8、将被替换的变量的名称:在gen命令的取值不同于在replace命令的取值:替换原有变量的取值必须满足if指定的条件,*yr of schooling recoded(这是一个注释;*代表注释)gen edu=0replace edu=1 if yrsch=11replace edu=2 if yrsch=12replace edu=3 if yrsch=13replace edu=4 if yrsch=14replace edu=5 if yrsch=15replace edu=6 if yrsch=16replace edu=7 if yrsch=21replace edu=8 if yrs
9、ch=22replace edu=9 if yrsch=23,replace edu=10 if yrsch=24|yrsch=27replace edu=11 if yrsch=25|yrsch=28replace edu=12 if yrsch=26|yrsch=29replace edu=13 if yrsch=31replace edu=14 if yrsch=32replace edu=15 if yrsch=33replace edu=16 if yrsch=34replace edu=17 if yrsch=35replace edu=18 if yrsch=36replace
10、edu=.if yrsch=.|yrsch=-9tab1 yrsch edu*查看变量的生成是否成功,变量生成的规则(I),生成新变量、重新定义旧变量时需遵循的一些基本规则:变量的名称可长达32个字符,必须以字母、汉字或字符(,_,#,$等)开头(不能使用空白字符或!、?等特殊字符)。变量最后一个字符不能是句号变量的名称必须唯一,不能有两个相同的变量名Stata区分大小写,对大写、小写敏感:Variable 不能写成 variable,反之亦然使用描述性的变量名字:“变量a”这个名称没有任何意义。调查问题是变量名称的很好选择,变量生成的规则(II),字符型变量的取值属性置于双引号中;其取值在I
11、ntercooled版本可多达80个字符,在Special Edition版本可达244个字符。超过该极限的字符都被自动舍去数值型变量的缺失值用一个实心小圆点(.)或在26个字母前加一个实心小圆点(如.a,.b,.c,.z)表示。后者属于延伸(extended)缺失值,对Refused(拒绝回答)或Not Applicable(不适用)进行编码时十分有用字符型变量的缺失值以双引号表示,引号中什么也没有。但这与空白不是一回事在Stata中,缺失值被默认为大于正数的最大值;在使用if条件从句和排序数据时尤为重要,变量生成的注意事项,尽量避免使用同一变量名称。换言之,不要使用新变量取代旧变量。保持原
12、始变量有助于检验我们的命令是否正确充分了解原始变量的分布以及每个数值代表的含义遵循不重不漏(exhaustive and mutually exclusive)原则(详见“生成分组变量”一节)在变量生成后,将原始变量和新变量的取值进行对比,检查是否有误注意原始变量的缺失值,4.3利用系统变量或下划线变量(_n和_N)生成新变量 Stata有几个下划线变量(_variables,读为“underscore variables”),因包含下划线而得名。这类变量并不出现在Stata的Variables(变量)窗口中,故又称系统变量。其中,经常使用的有_n 和_N。系统变量_n 和_N对于数据的管理和
13、处理十分有用,尤其是与特殊选项by同时使用时,系统变量 _n,_n 是指当前的观察值,即独一无二的观测序号,从1到_N(_N=总样本)_n是Stata系统内部独特的辨识器,标志从第一个观察值开始直到最后一个观察值(_N)的序列_n=1为第一个观测,_n=2为第二个观测,_n=_N是最后一个观测该系统变量适于(1)指示观察值;(2)生成系列数值;(3)生成其他变量,使用系统变量_n指示观察值,系统变量_n表示每个观察值的位置(numbering observations)。其原则是:当前观察值:_n 总观察值(最后一个观察值_n):_N第一个观察值:1 最后一个观察值:_N 滞后一个(lag)观
14、察值:_n-1 前移一个(lead)观察值:_n+1 第27个观察值:27,假如现有以下数据:+-+|province personid homesize age girl siblings|(省份)(个人ID)(家庭规模)(年龄)(女孩)(姊妹数量)|-|1.|21 2106018504 50 5 girl 1|2.|35 3505154103 100 18 boy 0|3.|32 3205093703 246 8 boy 0|4.|37 3708156203 60 9 boy 0|5.|45 4452082404 20 6 girl 3|6.|35 3501117305 25 13 gir
15、l 2|7.|45 4526057606 90 10 girl 3|8.|32 3209163903 25 2 boy 0|9.|37 3702093304 68 7 boy 1|10.|37 3704057503 80 20 boy 3|+-+现在想看看每个孩子在省内的排序,使用系统变量_n生成新变量,步骤1:对province(即“关键变量”)进行排序.sort province步骤2:生成感兴趣的变量.by province:gen order=_n:按province的分类进行排序和计算:生成新变量的基本命令:新变量的名称:新变量的取值等于同一province内观察值的序次步骤3:使用
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 社会统计分析与数据处理技术Stata4 变量的生成与处理 社会 统计分析 数据处理 技术 Stata 变量 生成 处理
链接地址:https://www.31ppt.com/p-2340229.html