第2章资料的整理与描述.ppt
《第2章资料的整理与描述.ppt》由会员分享,可在线阅读,更多相关《第2章资料的整理与描述.ppt(88页珍藏版)》请在三一办公上搜索。
1、第二章 资料的整理与描述,在试验研究中,通过观察、测量和记载,可获得大量的原始数据资料。这些资料往往是零乱的,无规律性可循。只有通过对资料的整理,才能发现其内部联系和规律性;并利用平均数(mean)、标准差(standard deviation)和变异系数(variation coefficient)三个统计数来描述资料的特征特性,以便对资料作进一步的统计分析。本章首先介绍资料整理的方法,然后介绍平均数、标准差、变异系数的意义和计算方法。,一、资料的分类 正确地进行资料的分类是资料整理的前提。在田间试验中,由观察、测量所得的资料,按其性质的不同,一般可分为两大类。即:(一)数量性状资料(二)质
2、量性状资料,第一节 资料的整理,数量性状(quantitative character)是指能够以量测或计数的方式表示其特征的性状。观察测定数量性状而获得的数据就是数量性状资料(data of quantitative characteristics)。数量性状资料的获得有量测和计数两种方式,因而数量性状资料又分为以下两种。1、计量资料 2、计数资料,(一)、数量性状资料,指用量测方式获得的数量性状资料,即用度、量、衡等计量工具直接测定而获得的数量性状资料。其数据是用长度、重量、容积等来表示,如小麦的株高、千粒重等。计量资料的观测值不一定是整数,两个相邻整数间允许有带小数的任何数值出现,其小数
3、位数多少由度量工具的精度而定。如小麦的株高为80100cm,可以是92cm、93cm,也可以是93.5cm或93.56cm。数据间的变异是连续的。因此,计量资料也称为连续性变异资料。,1、计量资料,指用计数方法获得的数量性状资料。计数资料的观察值只能以整数表示,在两个相邻整数间不允许有任何带小数的数值出现。如水稻的分蘖数、单位面积的害虫数、单位叶面积的病斑数等,这些观察值只能以整数来表示,各个观察值是不连续的。因此,计数资料也称为不连续性变量资料或间断性变量资料。,2、计数资料,质量性状(qualitative character)又称属性性状,是指能观察到而不能直接测量的性状。如花药、子粒、
4、颖壳等器官的颜色、芒的有无、绒毛的有无等。这类性状本身不能直接用数值表示,要获得这类性状的数据资料,须对其观察结果作数量化处理,方法有以下两种:1、统计次数法 2、评分法,(二)、质量性状资料,在一定的总体或样本内,根据某一质量性状的类别统计其次数,以次数作为质量性状的数据。例如,红花豌豆与白花豌豆杂交,统计F2代不同花色的植株时,在1000株植株中,有红花266株、紫花494株、白花240株(可进一步计算出三种花色植株出现的百分率分别为:26.6%、49.4%和24.0%)。这种利用统计次数法对质量性状数量化得来的资料又叫次数资料。,1、统计次数法,这种方法是用数字级别表示某种现象在表现程度
5、上的差别。例如,小麦感染锈病的严重程度可划分为0(免疫)、1(高度抵抗)、2(中度抵抗)、3(感染)级。又如,观察施用某种农药后害虫的死亡情况,记“死”为0,记“活”为1等。,2、评分法,二、资料的检查与核对,检查、核对原始资料是为了确保原始资料的完整性和正确性。所谓完整性,是指原始资料无缺失或重复。正确性,是指原始资料的测量和记载无差错,或未进行不合理的归并。要特别注意特大、特小的异常数据(结合专业知识判断)。对重复、异常或遗漏的资料,应予以删除或补齐;对错误、相互矛盾的资料应更正,必要时复查或重新试验。只有完整、正确的资料,才能真实反映试验的客观情况,保证统计分析结论的可靠性。,试验资料经
6、检查核对后,根据样本大小确定是否分组。对小样本(n30)资料不必分组,直接进行统计分析。当样本较大(n30)时,宜将观测值分成若干组,制成次数分布表,以了解资料集中与分散的情况。不同类型的资料,整理方法不同。,三、资料整理的方法,1、计数资料的整理,对于观察值不多、变异范围不大的计数资料,以每一观察值为一组进行分组,然后制成次数分布表。,引例,随机调查100个麦穗,计数每穗小穗数,原始数据列于表2-1。上述100个麦穗的每穗小穗数在1520范围内变动,变异范围不大。以每一个观察值为一组,共分为6组。把所有观察值按每穗小穗数予以归组,可得表2-2形式的次数分布表。,从表看到,原始资料整理后,数据
7、特征较清晰:每穗小穗数为17个的麦穗最多,每穗小穗数为15个和20个的最少,大部分麦穗的小穗数为17和18个。,有些计数资料,观察值较多,变异范围较大,若以每一观察值为一组,则组数太多而每组所包含的观察值太少,资料的规律性显示不出来。对于这样的资料,可扩大为几个相邻的观察值为一组,适当减少组数,分组后,资料的规律性就较明显。,引例,研究某早稻品种的每穗粒数,共观察200个稻穗,每穗粒数的变异幅度为2783粒。如果按每一观察值分为一组,需要分57组,每组所包含的观察值太少,资料的规律性显示不出来;如以5粒为一组,共分为12组,则资料的规律性较明显,如表2-3所示。,计量资料在分组前需要确定全距、
8、组数、组距、组中值及组限,然后将全部观测值划线计数归组制成次数分布表。下面以表2-4中140行水稻产量为例,说明计量资料整理的方法与步骤。,2、计量资料的整理,全距是资料中最大值与最小值之差,又称为极差(range),用R表示,即R=Max(x)-Min(x)表2-4中,水稻产量最大观测值为254g,最小观测值为75g,因此,全距为:R=254 75=179(g),(1)求全距,组数的多少视样本容量及资料全距的大小而定,一般以达到既简化资料又不影响反映资料的规律性为原则。组数要适当,不宜过多,亦不宜过少。分组越多所求得的统计数越准确,但增大了运算量;若分组过少,资料的规律性就反映不出来,计算出
9、的统计数的准确性也较差。一般可参考表2-5由样本容量确定组数。,(2)确定组数和组距,组距:是指每组的最大值与最小值之差,记为i。分组时要求各组的组距相等。组距的大小由全距和组数确定,计算公式为:组距(i)=全距/组数,表2-4中的观测值个数即样本含量为140,查表2-5,组数为1012,这里取12,则组距为:组距(i)=179/12=14.9(g)为了分组方便,以15g作为组距。,各组的最大值与最小值称为组限,最小值称为下限,最大值称上限。每一组的中点值称为组中值,是该组的代表值。组中值与组限、组距的关系为:组中值=(组下限+组上限)/2=组下限+组距/2=组上限-组距/2,(3)确定组限和
10、组中值,由于相邻两组的组中值之差等于组距,所以当第一组的组中值确定后,加上组距就是第二组的组中值,第二组的组中值加上组距就是第三组的组中值,其余类推。在资料分组时为了避免第一组中的观测值过多,第一组的组中值以接近或等于资料中的最小观测值为好。第一组的组中值确定后,则该组组限也随之确定,其余各组的组中值和组限也可相继确定。注意,最后一组的上限应大于资料中的最大值。,表2-4中,最小观测值为75,选取75为第一组的组中值;因组距为15,所以第一组的下限为75-15/2=67.5;第一组的上限也就是第二组的下限为67.5+15=82.5;第二组的上限也就是第三组的下限为82.5+15=97.5;依此
11、类推,一直到某一组的上限大于资料中的最大值254为止。于是分组为:67.582.5,82.597.5,,247.5262.5。,为了使恰好等于前一组上限和后一组下限的数据能确切归组,约定将其归入后一组,即约定“上限不在内”。通常将上限略去不写,如第一组记为67.5;第二组记为82.5;第三组记为97.5,;最后一组记为247.5.5。,分组结束后,将资料中的每一观测值逐一归组,划线计数,然后制成次数分布表。如表2-4中,第一个观测值177,应归入表2-6中第8组,其组限为172.5;第二个观测值215,应归入第10组,其组限为202.5;依次把140个观测值都进行归组、划线计数,制成次数分布表
12、,见表2-6。,(4)归组、划线计数、作次数分布表,前面确定分12组,但由于第一组的组中值等于最小观测值,故第一组的下限小于最小观测值,实际上增加了1/2组,这样也使最后一组的组中值接近于最大值,又差不多增加了1/2组,所以实际的组数比原来确定的要多一组,为13组。利用次数分布表不仅便于观察资料的规律,还可根据它绘成次数分布图和计算平均数、标准差等统计数。在归组划线时应注意:不要重复或遗漏,归组划线后将各组的次数相加应等于样本容量,如不等,说明归组划线有误,应予纠正。,对于质量性状资料可按性状或属性进行分组,分别统计各组的次数,然后制成次数分布表。例如,水稻杂种F2植株米粒性状的分离情况,见表
13、2-7。,3、质量性状资料的整理,四、常用统计表与统计图,统计表:是用表格形式来表示数据间的数量关系;统计图:是用几何图形来表示数据间的数量关系。使用统计表和统计图,可以把研究对象的特征、内部构成、相互关系等简明、形象地表达出来,便于比较分析。,表号 标题 编制统计表的总原则:结构简单,层次分明,内容安排合理,重点突出,数据准确,便于理解和比较分析。具体要求如下:,1)标题 标题要简明扼要、准确地说明表的内容,有时须注明时间、地点。2)标目 标目分横标目和纵标目两项。横标目列在表的左侧,用以表示被说明事物的主要标志;纵标目列在表的上端,说明横标目各统计指标内容,并注明计算单位,如、kg、cm等
14、等。,3)数字 一律用阿拉伯数字,数字以小数点对齐,小数位数一致,无数字的用“”表示,数字是“0”的,则填写“0”。4)线条 表的上下两条边线略粗,纵、横标目间及合计用细线分开,表的左右边线可省去,表的左上角一般不用斜线。,2、统计表的种类 统计表可根据纵、横标目是否有分组分为简单表和复合表两类。(1)简单表 由一组横标目和一组纵标目组成,纵横标目都未分组。此类表适于简单资料的统计。例如,表2-8由一组横标目和一组纵标目组成,是一张简单表。,(2)复合表 由两组或两组以上的横标目与一组纵标目结合而成,或由一组横标目与两组或两组以上的纵标目结合而成,或由两组或两组以上的横、纵标目结合而成。此类表
15、适用于复杂资料的统计。例如,表2-9由一组横标目与两组纵标目结合而成,是一张复合表。,常用的统计图有直方图(histogram)、多边形图(polygon)、条形图(bar diagram)、折线图(broken-line chart)或线图(linear)、圆图(pie chart)等。图形的选择取决于资料的性质。一般,计量资料采用直方图、多边形图和折线图(线图),计数资料、质量性状资料常采用条形图、圆图。,(二)统计图,1、统计图绘制的基本要求 1)标题简明扼要,列于图的下方。2)纵、横两轴应有刻度,注明单位。3)横轴由左至右、纵轴由下而上,数值由小到大;图形长宽比例约5:4或6:5。4)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 资料 整理 描述

链接地址:https://www.31ppt.com/p-5897171.html