《第2章资料的整理与描述.ppt》由会员分享,可在线阅读,更多相关《第2章资料的整理与描述.ppt(88页珍藏版)》请在三一办公上搜索。
1、第二章 资料的整理与描述,在试验研究中,通过观察、测量和记载,可获得大量的原始数据资料。这些资料往往是零乱的,无规律性可循。只有通过对资料的整理,才能发现其内部联系和规律性;并利用平均数(mean)、标准差(standard deviation)和变异系数(variation coefficient)三个统计数来描述资料的特征特性,以便对资料作进一步的统计分析。本章首先介绍资料整理的方法,然后介绍平均数、标准差、变异系数的意义和计算方法。,一、资料的分类 正确地进行资料的分类是资料整理的前提。在田间试验中,由观察、测量所得的资料,按其性质的不同,一般可分为两大类。即:(一)数量性状资料(二)质
2、量性状资料,第一节 资料的整理,数量性状(quantitative character)是指能够以量测或计数的方式表示其特征的性状。观察测定数量性状而获得的数据就是数量性状资料(data of quantitative characteristics)。数量性状资料的获得有量测和计数两种方式,因而数量性状资料又分为以下两种。1、计量资料 2、计数资料,(一)、数量性状资料,指用量测方式获得的数量性状资料,即用度、量、衡等计量工具直接测定而获得的数量性状资料。其数据是用长度、重量、容积等来表示,如小麦的株高、千粒重等。计量资料的观测值不一定是整数,两个相邻整数间允许有带小数的任何数值出现,其小数
3、位数多少由度量工具的精度而定。如小麦的株高为80100cm,可以是92cm、93cm,也可以是93.5cm或93.56cm。数据间的变异是连续的。因此,计量资料也称为连续性变异资料。,1、计量资料,指用计数方法获得的数量性状资料。计数资料的观察值只能以整数表示,在两个相邻整数间不允许有任何带小数的数值出现。如水稻的分蘖数、单位面积的害虫数、单位叶面积的病斑数等,这些观察值只能以整数来表示,各个观察值是不连续的。因此,计数资料也称为不连续性变量资料或间断性变量资料。,2、计数资料,质量性状(qualitative character)又称属性性状,是指能观察到而不能直接测量的性状。如花药、子粒、
4、颖壳等器官的颜色、芒的有无、绒毛的有无等。这类性状本身不能直接用数值表示,要获得这类性状的数据资料,须对其观察结果作数量化处理,方法有以下两种:1、统计次数法 2、评分法,(二)、质量性状资料,在一定的总体或样本内,根据某一质量性状的类别统计其次数,以次数作为质量性状的数据。例如,红花豌豆与白花豌豆杂交,统计F2代不同花色的植株时,在1000株植株中,有红花266株、紫花494株、白花240株(可进一步计算出三种花色植株出现的百分率分别为:26.6%、49.4%和24.0%)。这种利用统计次数法对质量性状数量化得来的资料又叫次数资料。,1、统计次数法,这种方法是用数字级别表示某种现象在表现程度
5、上的差别。例如,小麦感染锈病的严重程度可划分为0(免疫)、1(高度抵抗)、2(中度抵抗)、3(感染)级。又如,观察施用某种农药后害虫的死亡情况,记“死”为0,记“活”为1等。,2、评分法,二、资料的检查与核对,检查、核对原始资料是为了确保原始资料的完整性和正确性。所谓完整性,是指原始资料无缺失或重复。正确性,是指原始资料的测量和记载无差错,或未进行不合理的归并。要特别注意特大、特小的异常数据(结合专业知识判断)。对重复、异常或遗漏的资料,应予以删除或补齐;对错误、相互矛盾的资料应更正,必要时复查或重新试验。只有完整、正确的资料,才能真实反映试验的客观情况,保证统计分析结论的可靠性。,试验资料经
6、检查核对后,根据样本大小确定是否分组。对小样本(n30)资料不必分组,直接进行统计分析。当样本较大(n30)时,宜将观测值分成若干组,制成次数分布表,以了解资料集中与分散的情况。不同类型的资料,整理方法不同。,三、资料整理的方法,1、计数资料的整理,对于观察值不多、变异范围不大的计数资料,以每一观察值为一组进行分组,然后制成次数分布表。,引例,随机调查100个麦穗,计数每穗小穗数,原始数据列于表2-1。上述100个麦穗的每穗小穗数在1520范围内变动,变异范围不大。以每一个观察值为一组,共分为6组。把所有观察值按每穗小穗数予以归组,可得表2-2形式的次数分布表。,从表看到,原始资料整理后,数据
7、特征较清晰:每穗小穗数为17个的麦穗最多,每穗小穗数为15个和20个的最少,大部分麦穗的小穗数为17和18个。,有些计数资料,观察值较多,变异范围较大,若以每一观察值为一组,则组数太多而每组所包含的观察值太少,资料的规律性显示不出来。对于这样的资料,可扩大为几个相邻的观察值为一组,适当减少组数,分组后,资料的规律性就较明显。,引例,研究某早稻品种的每穗粒数,共观察200个稻穗,每穗粒数的变异幅度为2783粒。如果按每一观察值分为一组,需要分57组,每组所包含的观察值太少,资料的规律性显示不出来;如以5粒为一组,共分为12组,则资料的规律性较明显,如表2-3所示。,计量资料在分组前需要确定全距、
8、组数、组距、组中值及组限,然后将全部观测值划线计数归组制成次数分布表。下面以表2-4中140行水稻产量为例,说明计量资料整理的方法与步骤。,2、计量资料的整理,全距是资料中最大值与最小值之差,又称为极差(range),用R表示,即R=Max(x)-Min(x)表2-4中,水稻产量最大观测值为254g,最小观测值为75g,因此,全距为:R=254 75=179(g),(1)求全距,组数的多少视样本容量及资料全距的大小而定,一般以达到既简化资料又不影响反映资料的规律性为原则。组数要适当,不宜过多,亦不宜过少。分组越多所求得的统计数越准确,但增大了运算量;若分组过少,资料的规律性就反映不出来,计算出
9、的统计数的准确性也较差。一般可参考表2-5由样本容量确定组数。,(2)确定组数和组距,组距:是指每组的最大值与最小值之差,记为i。分组时要求各组的组距相等。组距的大小由全距和组数确定,计算公式为:组距(i)=全距/组数,表2-4中的观测值个数即样本含量为140,查表2-5,组数为1012,这里取12,则组距为:组距(i)=179/12=14.9(g)为了分组方便,以15g作为组距。,各组的最大值与最小值称为组限,最小值称为下限,最大值称上限。每一组的中点值称为组中值,是该组的代表值。组中值与组限、组距的关系为:组中值=(组下限+组上限)/2=组下限+组距/2=组上限-组距/2,(3)确定组限和
10、组中值,由于相邻两组的组中值之差等于组距,所以当第一组的组中值确定后,加上组距就是第二组的组中值,第二组的组中值加上组距就是第三组的组中值,其余类推。在资料分组时为了避免第一组中的观测值过多,第一组的组中值以接近或等于资料中的最小观测值为好。第一组的组中值确定后,则该组组限也随之确定,其余各组的组中值和组限也可相继确定。注意,最后一组的上限应大于资料中的最大值。,表2-4中,最小观测值为75,选取75为第一组的组中值;因组距为15,所以第一组的下限为75-15/2=67.5;第一组的上限也就是第二组的下限为67.5+15=82.5;第二组的上限也就是第三组的下限为82.5+15=97.5;依此
11、类推,一直到某一组的上限大于资料中的最大值254为止。于是分组为:67.582.5,82.597.5,,247.5262.5。,为了使恰好等于前一组上限和后一组下限的数据能确切归组,约定将其归入后一组,即约定“上限不在内”。通常将上限略去不写,如第一组记为67.5;第二组记为82.5;第三组记为97.5,;最后一组记为247.5.5。,分组结束后,将资料中的每一观测值逐一归组,划线计数,然后制成次数分布表。如表2-4中,第一个观测值177,应归入表2-6中第8组,其组限为172.5;第二个观测值215,应归入第10组,其组限为202.5;依次把140个观测值都进行归组、划线计数,制成次数分布表
12、,见表2-6。,(4)归组、划线计数、作次数分布表,前面确定分12组,但由于第一组的组中值等于最小观测值,故第一组的下限小于最小观测值,实际上增加了1/2组,这样也使最后一组的组中值接近于最大值,又差不多增加了1/2组,所以实际的组数比原来确定的要多一组,为13组。利用次数分布表不仅便于观察资料的规律,还可根据它绘成次数分布图和计算平均数、标准差等统计数。在归组划线时应注意:不要重复或遗漏,归组划线后将各组的次数相加应等于样本容量,如不等,说明归组划线有误,应予纠正。,对于质量性状资料可按性状或属性进行分组,分别统计各组的次数,然后制成次数分布表。例如,水稻杂种F2植株米粒性状的分离情况,见表
13、2-7。,3、质量性状资料的整理,四、常用统计表与统计图,统计表:是用表格形式来表示数据间的数量关系;统计图:是用几何图形来表示数据间的数量关系。使用统计表和统计图,可以把研究对象的特征、内部构成、相互关系等简明、形象地表达出来,便于比较分析。,表号 标题 编制统计表的总原则:结构简单,层次分明,内容安排合理,重点突出,数据准确,便于理解和比较分析。具体要求如下:,1)标题 标题要简明扼要、准确地说明表的内容,有时须注明时间、地点。2)标目 标目分横标目和纵标目两项。横标目列在表的左侧,用以表示被说明事物的主要标志;纵标目列在表的上端,说明横标目各统计指标内容,并注明计算单位,如、kg、cm等
14、等。,3)数字 一律用阿拉伯数字,数字以小数点对齐,小数位数一致,无数字的用“”表示,数字是“0”的,则填写“0”。4)线条 表的上下两条边线略粗,纵、横标目间及合计用细线分开,表的左右边线可省去,表的左上角一般不用斜线。,2、统计表的种类 统计表可根据纵、横标目是否有分组分为简单表和复合表两类。(1)简单表 由一组横标目和一组纵标目组成,纵横标目都未分组。此类表适于简单资料的统计。例如,表2-8由一组横标目和一组纵标目组成,是一张简单表。,(2)复合表 由两组或两组以上的横标目与一组纵标目结合而成,或由一组横标目与两组或两组以上的纵标目结合而成,或由两组或两组以上的横、纵标目结合而成。此类表
15、适用于复杂资料的统计。例如,表2-9由一组横标目与两组纵标目结合而成,是一张复合表。,常用的统计图有直方图(histogram)、多边形图(polygon)、条形图(bar diagram)、折线图(broken-line chart)或线图(linear)、圆图(pie chart)等。图形的选择取决于资料的性质。一般,计量资料采用直方图、多边形图和折线图(线图),计数资料、质量性状资料常采用条形图、圆图。,(二)统计图,1、统计图绘制的基本要求 1)标题简明扼要,列于图的下方。2)纵、横两轴应有刻度,注明单位。3)横轴由左至右、纵轴由下而上,数值由小到大;图形长宽比例约5:4或6:5。4)
16、图中需用不同颜色或线条代表不同事物时,应有图例说明。,2、常用统计图及其绘制方法,(1)直方图 对计量资料,可根据次数分布表作出直方图以表示资料的分布情况。,(2)多边形图:对于计量资料也可根据其次数分布表绘出多边形图。,(3)条形图:对于计数资料、质量性状资料用条形图来表示其次数分布情况,通过等宽长条的长短或高低表示研究指标划分属性种类的次数或频率分布。一般在横轴上标出分类性状,在纵轴上标出次数或频率。如果只涉及一项指标,则采用单式条形图;如果涉及两个或两个以上的指标,则采用复式条形图。,单式条形图,复式条形图,(4)园图,把园图的全面积看成100%,按各类别、等级的构成比将园面积分成若干分
17、,以扇形面积的大小表分别表示各类别、等级的比例。,用于表示计数资料、质量性状资料或半定量(等级)资料的构成比。所谓构成比,就是各类别、等级的观测值个数(次数)与观测值总个数(样本含量)的百分比。,(5)线图,单式线图,复式线图,图2-7、不同小麦品种灌浆结实期叶片蒸腾速率(陕229;长武134;晋麦47;偃师9号;咸农151),图2-6 小麦生产年降水情况,第二节 资料的描述,一、平均数二、标准差三、变异系数,统计表和统计图可以简明、形象地把研究对象的特征、内部构成、相互关系等表达出来。但为了便于对资料作进一步的统计分析,常利用平均数、标准差、变异系数三个统计数来描述资料的特征特性。平均数用于
18、描述资料的集中性,即观测值以某一数值为中心而分布的性质;标准差和变异系数用于描述资料的离散性,即观测值离中分散变异的性质。,一、平均数(Mean),平均数是统计学中最常用的统计数,表示资料中观测值的中心位置,作为资料的代表与另一资料相比较。平均数的种类较多,主要有算术平均数(arithmetic mean)、中位数(median)、众数(mode)、几何平均数(geometric mean)与调和平均数(harmonic mean)5种。,(一)、算术平均数(Arithmetic mean),算术平均数的定义:资料中各观察值的总和除以观察值的个数所得的商,称为算术平均数。在统计学中,简称为平均
19、数或均数。用符号 表示。1、计算方法:算术平均数可根据样本大小及分组情况采用直接法和加权法计算。(1)、直接法:对样本含量较小(n30),未分组的资料适用。,其中,(Sigma)为总和符号,表示从第一个观察值x1累加到第n个观察值xn,若在意义上已明确时,简记为。此时:,【例21】在大豆区域试验中,吉农904的6个小区产量分别为25.0、26.0、22.0、21.0、24.5、23.5(kg)。求该品种的小区平均产量。由(2-2)式,得 即吉农904的小区平均产量为23.5kg,(2)、加权法,对于大样本(n30)且已分组资料,可在次数分布表的基础上采用加权法计算平均数:,各组的次数 fi 是
20、权衡各组中值 xi 在资料中所占比重大小的数量,因此f被称为是x的“权”(right),加权法也由此而得名。也叫做加权平均数,xi 各组组中值;fi 各组次数;k 分组数。,【例22】用加权法计算表2-6资料中140行水稻平均产量。由(2-3)式,得 即140行水稻平均产量为157.93g。采用直接法算得=157.47g,用加权法计算的结果与其十分接近。,2、算术平均数的基本性质,性质1:样本各个观察值与平均数之差的和为零,即离均差之和为零;性质2:样本各观察值与平均数之差的平方和为最小,即离均差的平方和最小。,对性质2的证明:设 a为不等于 的任意实数,即所以,,3、总体平均数:统计学已证明
21、,样本平均数 是总体平均数 的无偏估计值。对总体而言,用 表示平均数。对于有限总体 无偏估计:当一个统计量的数学期望值等于相应总体参数时,称该统计量为其总体参数的无偏估计。,N有限总体所包含的个体数目。,(二)中位数(median),定义:将资料中所有观察值从小到大依次排列,处于中间位置的数。以Md表示。适用条件:资料呈偏态分布或次数分布类型不明,以及一端或两端无确定数值,这种资料用中位数作为代表值比用算术平均数为好。,计算方法,1、未分组资料,先将各观察值由小到大排列。当n为奇数时,第(n+1)/2位置的观察值即为中数,即Md=x(n+1)/2 当n为偶数时,n/2和(n+1)/2位置的两个
22、观察值之和的二分之一即为中数,即:,【例23】测量9株玉米的株高并将各观测值由小到大依次排列为:154、155、157、159、160、161、163、166、167(cm)。求其中位数。由于n=9,为奇数,则:即9株玉米株高的中位数为160 cm。,【例2 4】调查10个大豆品种百粒重并将各观测值由小到大依次排列为:17.0、17.2、18.0、18.4、19.2、19.4、20.4、20.6、21.0、22.2(g)。求其中位数。由于n=10,为偶数,则:即10个大豆品种百粒重的中位数为19.3g。,2、已分组资料中位数的计算方法:若资料已分组,并编制成了次数分布表,可利用次数分布表计算中
23、数。其中:L中数所在组的下限;i组距;f中数所在组的次数;n总次数;c小于中数所在组的累积次数。,【例25】利用表2-6的数据计算140行水稻产量的中位数。由表2-6可知:i=15,n=140,中位数只能在累加次数为91所对应的组限为157.5172.5这一组,于是可确定L=157.5,=25,c=66,代入(2-6)式得:即140行水稻产量的中位数为159.9g。,资料中出现次数最多的那个数或次数最多一组的组中值,记为Mo。例如表2-2所列100个麦穗每穗小穗数的次数分布表中,17出现的次数最多,则该资料的众数为17。又如表2-6所列140行水稻产量的次数分布表中,157.5172.5这一组
24、的次数最多,其组中值为165,则该资料的众数为165g。,(三)众数(Mode),(四)几何平均数(Geometric mean),定义:指n个观察值乘积的n次方根。即 适用条件:主要应用于数据呈倍数关系或不对称分布的资料,算术平均数对这类资料的代表性差。如计算平均增殖率、抗体效价、增长率或生长率、动态发展速度等。,1、应用公式计算(实际应用时常取对数),【例26】逐日测定蚕豆根长(mm)列于下表2-10。求蚕豆根长的日平均增长率。,利用(2-8)式求日平均增长率:G=1g-1(1gx1+1gx2+1gxn)=1g-1(-0.45230-0.51663-0.57403-0.46583-0.38
25、536-0.71121)=1g-1()=1g-1(-0.51765)=0.30370即蚕豆根长的日平均增长率为0.3037或30.37%。,(五)调和平均数(Harmonic Mean)指资料中各观察值倒数的平均数的倒数,用H表示。主要用于反映研究对象不同阶段的平均速率等。,【例27】测定水分在某种土壤毛细管中的上升速率,得表2-11结果。试计算该土壤毛细管中水的平均上升速率。,由(2-9)式,得:即该土壤毛细管中水的平均上升速率为每分钟3.27cm。注意:就同一资料而言,算术平均数几何平均数调和平均数,二、标准差(Standard deviation),(一)标准差的意义:用平均数作样本的代
26、表,其代表性强弱受样本中各观测值变异程度的影响。如各观测值变异小,则平均数代表性强;如各观测值变异大,则平均数代表性弱。故仅用平均数对一个资料的特征特性作统计描述不全面,还需引入一个表示资料中各观测值变异程度大小的统计数。统计学中常使用极差、标准差和变异系数表示资料中各观测值的变异程度。,1、极差,极差(全距)是表示资料中各观测值变异程度大小最简便的统计数。极差大,则资料中各观测值变异程度大,极差小,则各观测值变异程度小。但计算极差时,只用了资料中的最大值和最小值,因而极差不能准确表达资料中全部观测值的变异程度,较粗略。当资料很多而又要迅速对资料的变异程度作出判断时,可利用极差。为了克服极差的
27、缺点,常使用标准差来表示资料的变异程度。,2、标准差,设一样本有n个观测值:x1,x2,xn。为了准确描述样本内各观测值的变异程度,人们首先想到以平均数为标准,求各个观测值与平均数的差,即离均差。离均差大,变异就大,反之,变异就小。,若用 来消除离均差的负号,使用起来又不方便,在统计学中未被采用。为消除离均差的负号,先将各离均差平方;再求离均差的平方之和(简称平方和,记为SS),即,对于各平方和,为消除样本含量的影响以离均差的平方和除以自由度n-1。统计量 称为均方(缩写为MS),又称为样本方差,记为S2,即:,相应的总体参数叫总体方差,记为2。对于含有N个个体的有限总体而言,2的计算公式为:
28、,由于样本方差带有原度量单位的平方单位,为将单位还原,即求样本方差的平方根。在统计学上,样本方差S2的平方根叫做标准差,记为S。相应总体参数叫总体标准差(),对于有限总体,,样本方差简化公式的推导,定义式:简化公式:推导过程:,所以,前面的公式可改写为:上式中的项称为矫正数,记作C。矫正数C的计算在后面的方差分析中经常用到。,3、自由度,前式中,根号里面分母n-1称为离均差平方和的自由度,简称为自由度(degree of freedom),记为d=n-1。其统计意义是指在计算离均差平方和时,能够自由变动的离均差的个数。,在计算离均差平方和时,n 个离均差受到 这一条件的约束,能自由变动的离均差
29、的个数是n-1。当n-1个离均差确定了,第n个离均差也就随之而定了,不能再任意变动。一般,在计算离均差平方和时,若约束条件为k个,则其自由度d=n-k。,(二)标准差的计算,1、直接法:对小样本(n30)和未经分组的资料,直接利用下式计算标准差。,【例28】:测量某一水稻单株粒重得5个观测值:3、8、7、6、4(g)。计算其标准差S。因为,利用(2-15)式,得 即该样本标准差为2.07g。,2、加权法,对于大样本(n30)且已分组的资料,可在次数分布表的基础上采用加权法计算标准差,计算公式为:其中,f为第i组的次数;为第i组的组中值;n为样本观测值的总个数。,【例29】根据表2-6的次数分布
30、资料采用加权法计算每行水稻产量的标准差。由(2-16)式,得:若采用直接法计算标准差,S=36.24g。采用加权法计算的的标准差与用直接法计算的标准差很接近。,三、变异系数(Coefficient of variation),标准差是表示资料变异程度的一个重要统计数。由于它带有与样本资料相同的度量单位,不能用来比较度量单位不同、或者度量单位相同但平均数不同的两个或多个样本资料的变异程度的大小,需引入另一个度量资料变异程度的统计量,使其既能反映样本资料的变异性,又能解决度量单位及平均数不同的问题。变异系数正是这样的统计量。,变异系数是样本标准差与样本平均数的比值,以百分数形式表示,其计算公式为:
31、变异系数是一个不带单位的纯数,可用以比较两个或多个样本资料变异程度的大小。,表2-13、两个小麦品种主茎高度的平均数、标准差与变异系数,表2-13为两个小麦品种主茎高度的平均数、标准差和变异系数。如只从标准差看,品种甲的主茎高度比品种乙的变异程度大。因两者的平均数不同,在这种情况下,须用变异系数进行比较。经计算得到品种甲的变异系数CV甲=9.23%,品种乙的变异系数CV乙=10.92%,可见品种甲的主茎高度的变异程度比品种乙小。,在田间试验选择试验地时,常用变异系数作为表示试验地土壤差异程度的指标。在使用变异系数时,由于它既受标准差S的影响,也受平均数的影响,因此,在使用变异系数表示资料变异程度或进行资料间变异程度的比较时,应同时列出平均数和标准差,以避免产生误解。,变异系数的特点和作用(1)变异系数也是表示样本变异程度的数值,但与标准差不同:标准差是一个绝对值,带单位,而变异系数是一个无单位的相对值,用表示;(2)变异系数同时受到平均数和标准差的影响,因此,在利用变异系数来表示资料的变异程度时,最好将平均数和标准差也列出。(3)变异系数不受单位不同或平均数不同的影响,对于单位不同和平均数不同的资料,都可以用变异系数来比较其变异程度。,作业,思考:1、2、3、4、8书面作业:5、6、7、9、10,
链接地址:https://www.31ppt.com/p-5897171.html