资料的整理与基本分析.ppt
《资料的整理与基本分析.ppt》由会员分享,可在线阅读,更多相关《资料的整理与基本分析.ppt(90页珍藏版)》请在三一办公上搜索。
1、第二章 资料的整理与基本分析,下一张,主 页,退 出,上一张,数据资料的分类,数据资料的整理,常用统计表与统计图,数据资料的特征值分析,正确地进行资料的分类是资料整理的前提。在调查或试验中,由观察、测量所得的数据按其性质的不同,一般可以分为计量资料、计数资料和等级(半定量)资料三大类。,下一张,主 页,退 出,上一张,第一节 资料的分类,下一张,主 页,退 出,上一张,数据资料的来源 1、实验观察所得的科学实验记录 2、调查研究所得的资料 3、生产记录、病理等现场资料,下一张,主 页,退 出,上一张,一 计量资料(数值变量),指用量测方式获得的数量性状资料,即用度、量、衡等计量工具直接测定获得
2、的数量性状资料。其数据是用长度、容积、重量等来表示。这种资料的各个观测值不一定是整数,两个相邻的整数间可以有带小数的任何数值出现,其小数位数的多少由度量工具的精度而定,它们之间的变异是连续性的。因此,计量资料也称为连续性变异资料。体现:动物的各种生理、生化指标,药动力学指标等,如血液中血红蛋白含量。,下一张,主 页,退 出,上一张,二 计数资料(无序分类变量),指用计数方式获得的数量性状资料。在这类资料中,它的各个观察值只能以整数表示,在两个相邻整数间不得有任何带小数的数值出现。这些观察值只能以整数来表示,各观察值是不连续的,因此该类资料也称为不连续性变异资料或间断性变异资料。如:畜禽疫病感染
3、个数、发病数、死亡数、呼吸次数、单位容积内细胞数、细菌数等。,等 级或半 定 量资 料(ranked data or semi-quantitative)是指将观察单位按所考察的性状或指标的等级顺序分组,然后清点各组观察单位的次数而得的资料。这类资料既有次数资料的特点,又有程度或量的不同。也称为分类资料。,下一张,主 页,退 出,上一张,三、等级(半定量)资料(有序分类变量),下一张,主 页,退 出,上一张,如粪便潜血试验的阳性反应是在涂有粪便的棉签上加试剂后观察颜色出现的快慢及深浅程度分为六个等级;又如用某种药物治疗畜禽的某种疾病,疗效分为“无效”、“好转”、“显效”和“控制”四个级别;然后
4、统计各级别的供试畜禽数。半定量资料在医学研究中是常见的。在生物医学中,这类资料常用相对数(率)或构成比的形式表示(如:发病率、死亡率、感染率、治愈率、免疫率、阳性率等),率(rate):说明某现象或某事物发生的频率或强度。率=(实际发生数/可能发生总数)比例基数 比例基数:100%、1000、10000/万、100000(1/10万)等 如:发病率、死亡率、发生率、阳性率、患病率等构成比(proportion):说明某一事物内部,各组成部分所占的比重。也叫百分比。构成比=(某部分观察单位数/各组成部分观察单位总数)100%如:教研室16人中高级职称有4人,占20(1/5)。相对比(relati
5、ve ratio):是A、B两个有关指标之比,说明A是B的若干倍或百分之几,通常用倍数或分数表示。如:男:女、医生:护士、教师:学生,下一张,主 页,退 出,上一张,率与构成比,下一张,主 页,退 出,上一张,1.1 白猪和黑猪子二代的毛色分离情况,率与构成比的例子,下一张,主 页,退 出,上一张,占,1.2 4周龄以上仔猪患某一疾病的记录,下一张,主 页,退 出,上一张,存在分类,随机事件,应用注意事项,1、不能以构成比代替率。2、计算相对数的分母不宜过小。小则直接叙述。3、进行率的对比分析时,应注意资料可比性。如 比较疗效时,比较组间应病情轻重相同,性别影响,应按性别分组后再作比较。4、正
6、确求平均率。例:若P1=x1/n1 P2=x2/n2 P3=x3/n3 P(x1+x2+x3)/n1+n2+n3)(正确)P(P1+P2+P3)/3(错误),下一张,主 页,退 出,上一张,下一张,主 页,退 出,上一张,三种不同类型的资料相互间是有区别的,但有时可根据研究的目的和统计方法的要求将一种类型资料转化成另一种类型的资料。例如,医学临床化验动物的白细胞总数得到的资料属于计数资料,根据化验的目的,可按白细胞总数正常或不正常分为两组,清点各组的次数,或者按白细胞总数过高、正常、过低分为三组,清点各组次数,就转化成了半定量资料。,小结,第二节 资料的整理,下一张,主 页,退 出,上一张,一
7、、资料的检查与核对,目的:确保原始资料的完整性和正确性。完整性:指原始资料无遗缺或重复。正确性:指原始资料的测量和记载无差错或未进行不合理的归并。检查中要注意:1.数据本身差错 2.取样差错 3.数据资料的不合理合并和归类,下一张,主 页,退 出,上一张,检查中要特别注意特大、特小和异常数据(可结合专业知识作出判断)。对于有重复、异常或遗漏的资料,应予以删除或补齐;对有错误、相互矛盾的资料应进行更正,必要时进行复查或重新试验。,当变数不多(n30)时,不必分组,直接进行统计分析。当变数较多(n30)时,宜将变数分成若干组,以便统计分析。将变数分组后,制成次数分布表(统计学上把经过数据整理后得到
8、的反映变数在各组内的分布情况表格),即可看到资料的集中和变异情况。资料的性质不同,整理方法不同。,二、资料的整理方法,下一张,主 页,退 出,上一张,下一张,主 页,退 出,上一张,表2-2 50枚受精种蛋出雏天数的次数分布表,下一张,主 页,退 出,上一张,问题:有些计数资料,观察值较多,变异范围较大,若以每一变数为一组,则组数太多,而每组内包含的变数太少,资料的规律性显示不出来。方法:可扩大为以几个相邻变数为一组,适当减 少组数,增加每组的变数。这样资料的规律性就较明显,对资料进一步计算分析也比较方便。,变数较多,变异幅度较大的资料整理,下一张,主 页,退 出,上一张,下一张,主 页,退
9、出,上一张,【例2-1】对100例患病的断奶仔猪血液涂片显微镜下病变红细胞数资料进行整理分组。,(原始资料略),病变红细胞数变异范围在6-21个,如果以一个单独观测值为一组,分16组就太多,不易看出资料的分布规律。如每间隔2个分为一组,则可使组数适当减少。经适当合并后分为9组,资料的分布规律就比较明显,见表2-3。,表2-3 100例血液涂片病变红细胞数的次数分布表,下一张,主 页,退 出,上一张,(二)、计量资料的整理,计量资料在分组前需要确定全距、组数、组距、组中值及组限,然后将全部变数划线计数归组。频数与频数分布,下一张,主 页,退 出,上一张,1 概念,下一张,主 页,退 出,上一张,
10、频数:某个(组)测量值的个(例)数。频数分布表(frequency distribution table):又称频数表。是将原始数据值适当分组后得到各组的频数。适用样本量较大的资料进行统计描述的常用方法。通过频数表可以显示数据分布的范围与形态。可用手工和计算机软件(如SAS、SPSS等)方便制作频数表。,2 频数表的编制步骤,(1)求极差(range):即最大值与最小值之差,又称为全距。(2)决定组数、组限和组距:根据研究目的和样本含量n确定。组距=极差/组数,通常分10-15个组,为方便计,组距参考极差的十分之一,再略加调整。(3)列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包
11、含最大值,其它组段上限值忽略。(4)划线计数:用划记法将所有数据归纳到各组段,得到各组段的频数。,下一张,主 页,退 出,上一张,下一张,主 页,退 出,上一张,下一张,主 页,退 出,上一张,(1)、求全距 全距是资料中最大值与最小值之差,又称为极差(range),用R表示,即 R=Max(x)-Min(x)本例 R=65.0-37.0=28.0(kg),下一张,主 页,退 出,上一张,(2-1)、确定组数 组数的多少视样本含量及资料的变动范围大小而定,一般以达到既简化资料又不影响反映资料的规律性为原则。组数要适当,不宜过多,亦不宜过少。分组越多所求得的统计量越精确,但增大了运算量;若分组过
12、少,资料的规律性就反映不出来,计算出的统计量的精确性也较差。一般组数的确定,可参考表2-5。,表2-5 样本含量与组数 本例中,n126,根据表2-5,初步确定组数为10组。,下一张,主 页,退 出,上一张,(2-2)、确定组距 每组最大值与最小值之差称为组距,记为 i。分组时要求各组的组距相等。组距的计算公式为:组距(i)全距组数 本例 i28.0103.0(化整),下一张,主 页,退 出,上一张,(2-3)、确定组限及组中值 各组的最大值与最小值称为组限。最小值称为下限,最大值称为上限。每一组的中点值称为组中值,它是该组的代表值。组中值与组限、组距的关系如下:组中值(组下限组上限)/2 组
13、下限1/2组距 组上限1/2组距 由于相邻两组的组中值间的距离等于组距,所以当第一组的组中值确定以后,加上组距就是第二组的组中值,第二组的组中值加上组距就是第三组的组中值,其余类推。,下一张,主 页,退 出,上一张,下一张,主 页,退 出,上一张,组距确定后,首先要选定第一组的组中值。在分组时为了避免第一组中观察值过多,一般第一组的组中值以接近或等于资料中的最小值为好。第一组组中值确定后,该组组限即可确定,其余各组的组中值和组限也可相继确定。注意,最末一组的上限应大于资料中的最大值。,注意,下一张,主 页,退 出,上一张,(3)列出组段,表2-2中,最小值为37.0,第一组的组中值取37.5,
14、因组距已确定为3.0,所以 第一组的下限为:37.5-(1/2)3.036.0;第一组的上限也就是第二组的下限为:36.0+3.0=39.0;第二组的上限也就是第三组的下限为:39.0+3.0=42.0,以此类推,一直到某一组的上限大于资料中的最大值为止。于是可分组为:36.0 39.0,39.0 42.0,。,为了使恰好等于前一组上限和后一组下限的数据能确切归组,约定将其归入后一组。通常将上限略去不写。第一组记为36.0,第二组记为39.0,,下一张,主 页,退 出,上一张,下一张,主 页,退 出,上一张,下一张,主 页,退 出,上一张,在归组划线时应注意,不要重复或遗漏,归组划线后将各组的
15、次数相加,结果应与样本含量相等,如不等,证明归组划线有误,应予纠正。在分组后所得实际组数,有时和最初确定的组数不同,如第一组下限和资料中的最小值相差较大或实际组距比计算的组距为小,则实际分组的组数将比原定组数多;反之则少。,注意,(三)等级(半定量)资料的整理 对于等级(半定量)资料,可按性状或等级进行分组,分别统计各组的次数,然后制成次数分布表。,下一张,主 页,退 出,上一张,表2-7 F2代山羊的有角无角分离情况,下一张,主 页,退 出,上一张,下一张,主 页,退 出,上一张,表2-8 仔猪死亡情况,第三节 常用统计表与统计图,下一张,主 页,退 出,上一张,使用统计表和统计图,可以把研
16、究对象的特征、内部构成、相互关系等简明、形象地表达出来,便于比较分析。,一、统计表,任何反映统计资料的表格(广义)统计整理与分析阶段使用的表格(狭义),下一张,主 页,退 出,上一张,用表格形式来表示数据间的数量关系,(一)统计表的结构和要求 统计表由标题、横标目、纵标目、线条、数 字及合计构成,其基本格式如下表:,下一张,主 页,退 出,上一张,编制统计表的总原则:结构简单,层次分明,内容安排合理,重点突出,数据准确,便于理解和比较分析。具体要求如下:,下一张,主 页,退 出,上一张,1.统计表的结构,备注:,表号 标题(包括何时、何地、何事),下一张,主 页,退 出,上一张,1、标题 标题
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 资料 整理 基本 分析

链接地址:https://www.31ppt.com/p-5844038.html