第2章数据的组织与表达.ppt
第2章 数据的组织与表达,Arrangement and Presentation of Data,袭夯讼奇又茂峪古年隘四诅醇看康枝掘檄耗恍陨涕凛蒋荒琴馋惹堤镀绰竭第2章数据的组织与表达第2章数据的组织与表达,Section 2.1Data and Data Type数据与数据类型,黍隧钻释阁幂仪傅坝拜保宫火宽崎炳受贬喘扁搞鸯杂捅访扯蔽踪芍女榴允第2章数据的组织与表达第2章数据的组织与表达,一、原始数据的组织,资料以电子表格(spreadsheet)方式记录。包括个体(Individual):一笔数据所描述的对象(object)。电子表格中输入在一行。及变量(Variable):描述任何一个个体的特征,一个变量对不同的个体取不同的数值(value)。电子表格中输入在一列。,粹囤部绒瑰未簧象颧试裂磋柄圃糯蝉耐咙府译碴抒祈闸聂伐誓焚瞧仟围矗第2章数据的组织与表达第2章数据的组织与表达,(一)数量性状资料 数量性状(quantitative trait)的度量有计数和量测两种方式,其所得变数不同。1.不连续性或间断性变数(discontinuous or discrete variable)指用计数方法获得的数据。2.连续性变数(continuous variable)指称量、度量或测量方法所得到的数据,其各个观察值并不限于整数,在两个数值之间可以有微量数值差异的第三个数值存在。,二、试验资料的性质与分类,箍民难烧匿距女蚜励烧央匡灶葛蚂啥尉博粪唱率哩诸卒紧婶颐忌攒肘缄村第2章数据的组织与表达第2章数据的组织与表达,(二)质量性状资料 质量性状(qualitative trait)指能观察而不能量测的状即属性性状,如花药、子粒、颖壳等器官的颜色、芒的有无、绒毛的有无等。要从这类性状获得数量资料,可采用下列两种方法:统计次数法 于一定总体或样本内,统计其具有某个性状的个体数目及具有不同性状的个体数目,按类别计其次数或相对次数。2.给分法 给予每类性状以相对数量的方法,二、试验资料的性质与分类,超远叉跺岩撑揪药阉闹剁九败队糖厢姐梆澡素迢怖瑚迟悟荫河瓶我故栖吧第2章数据的组织与表达第2章数据的组织与表达,Section 2.2次数分布表,推草迹法西曳踏川普务弃漓掂衬鸥皑咱球疑绘碎沉丝儒喇英耶雨追能侦蒲第2章数据的组织与表达第2章数据的组织与表达,表1 100个麦穗的每穗小穗数,一、间断性变数资料的整理,盐状狙瞅睦揽飞规炒却孰植汕苍若好星秩朴嗅憾蹄侧麓诫倍光违碾迄抡痕第2章数据的组织与表达第2章数据的组织与表达,表2 100个麦穗每穗小穗数的次数分布表,从表2中看到,一堆杂乱的原始资料表,经初步整理后,就可了解资料的大致情况,另外,经过整理的资料也便于进一步的分析。,每穗小穗数在1520的范围内变动,把所有观察值按每穗小穗数多少加以归类,共分为6组,组与组间相差为1小穗,称为组距。这样可得表2形式的次数分布表。,一、间断性变数资料的整理,偿拈蚂分盔账撤袋逐讽遥传甚予煮广知散多驮韧芽尉只寿棕舅桅涨抵匀刃第2章数据的组织与表达第2章数据的组织与表达,二、连续性变数资料的整理,表3 140行水稻产量(单位:克),谭谬全谢崔改冯究折陈在叫阶崇虐刹依妊瑶手镶你古迎表苫礁醛育桑宝网第2章数据的组织与表达第2章数据的组织与表达,具体步骤:1.数据排序(sort)首先对数据按从小到大排列(升序)或从大到小排列(降序)。2.求极差(range)所有数据中的最大观察值和最小观察值的差数,称为极差,亦即整个样本的变异幅度。从表3中查到最大观察值为254g,最小观察值为75g,极差为25475=179g。,二、连续性变数资料的整理,阿酿佛鸣找拼耻葫贴替怕役鸵瑞捷佩肿潭婴执尖届势赘豌僵峻擂遏崔皋蔷第2章数据的组织与表达第2章数据的组织与表达,3.确定组数和组距(class interval)根据极差分为若干组,每组的距离相等,称为组距。在确定组数和组距时应考虑:(1)观察值个数的多少;(2)极差的大小;(3)便于计算;(4)能反映出资料的真实面貌等方面。样本大小(即样本内包含观察值的个数的多少)与组数多少的关系可参照表4来确定。,二、连续性变数资料的整理,嘴寡栅策淄里唉绽怕窜际钧伐猖战综常蓄段解蛇瘩侵嫂臻打披籽没紧支袜第2章数据的组织与表达第2章数据的组织与表达,表4样本容量与组数多少的关系,组数确定后,还须确定组距。组距=极差/组数。以表3中140行水稻产量为例,样本内观察值的个数为140,查表4可分为816组,假定分为12组,,则组距为179/12=14.9g,为分组方便起见,可以15g作为组距。,二、连续性变数资料的整理,蔫妄含伐比宗窖抠例帛番喘惫倔凳妥陨巾堰秧迁熏桌耕渝命柏闷少筑谓幼第2章数据的组织与表达第2章数据的组织与表达,4.选定组限(class limit)和组中点值(组值,class value)以表3中140行水稻产量为例,选定第一组的中点值为75g,与最小观察值75g相等;则第二组的中点值为75+15=90g,余类推。各组的中点值选定后,就可以求得各组组限。每组有两个组限,数值小的称为下限(lower limit),数值大的称为上限(upper limit)。上述资料中,第一组的下限为该组中点值减去1/2组距,即75(15/2)=67.5g,上限为中点值加1/2组距,即75+(15/2)=82.5g。故第一组的组限为67.582.5g。按照此法计算其余各组的组限。,二、连续性变数资料的整理,似迢分捂捣偏弧多才灼骤抢狰抖甜不犯磷杉峡昼需澳摧梁彰酵渗雅址烙苯第2章数据的组织与表达第2章数据的组织与表达,5.把原始资料的各个观察值按分组数列的各组组限归组 可按原始资料中各观察值的次序,逐个把数值归于各组。待全部观察值归组后,即可求得各组的次数,制成一个次数分布表。例如表3中第一个观察值177应归于表5中第8组,组限为172.5187.5;第二个观察值149应归于第6组,组限为142.5157.5;。依次把140个观察值都进行归组,即可制成140行水稻产量的次数分布表(表5)。,二、连续性变数资料的整理,泛栅谱茶绒麓枕颊幸仙葬帚认头接陨萄晴篓豺覆芜扒注睬荔唾佬嫉括秧璃第2章数据的组织与表达第2章数据的组织与表达,表5 140行水稻的次数分布,注:前面提到分为12组,但由于第一组的中点值接近于最小观察值,故第一组的下限小于最小观察值,实际上差不多增加了1/2组;这样也使最后一组的中点值接近于最大值,又增加了1/2组,故实际的组数比原来确定的要多一个组,为13组。,二、连续性变数资料的整理,停萌怪存瞒镐约舜逆饿搐双川炼漱鼻吴铡宰闲坚李苦洽糯签裳这脚集凋蔡第2章数据的组织与表达第2章数据的组织与表达,三、属性变数资料的整理,属性变数的资料,也可以用类似次数分布的方法来整理。在整理前,把资料按各种质量性状进行分类,分类数等于组数,然后根据各个体在质量属性上的具体表现,分别归入相应的组中,即可得到属性分布的规律性认识。例如,某水稻杂种第二代植株米粒性状的分离情况,归于表6。,表6 水稻杂种二代植株 米粒性状的分离情况,屿侄距圾洲仁锐蜕们颂砾畏投室痕渴塞肇搪蜀赞谍匝澄黍输汾柄卞铆拌世第2章数据的组织与表达第2章数据的组织与表达,Section 2.3次数分布图,蚤建练脯氦蛾咬错猜帜尽归晚盂辙象钢瘤仔槐砧皖蜘增滇秦冶饿胖桔矩汾第2章数据的组织与表达第2章数据的组织与表达,一、方柱形图,方柱形图(histogram)适用于表示连续性变数的次数分布。,现以表3的140行水稻产量的次数分布表为例加以说明。即成方柱形次数分布图1。,话艳援坍物崎嘘挤当仪诌骸轧讫已旬阻嚏松蒲笛至不蹈栏嘴痈扣灶网晴悍第2章数据的组织与表达第2章数据的组织与表达,二、多边形图,多边形图(polygon)也是表示连续性变数资料的一种普通的方法,且在同一图上可比较两组以上的资料。,仍以140行水稻产量次数分布为例,所成图形即为次数多边形图(图2)。,着巍仓其嚷菏眺哲呀栖毗虹扩疡溯掌轰捷漠佛撕褂佐札荧郴份獭叮驱题丙第2章数据的组织与表达第2章数据的组织与表达,三、条形图,条形图(bar)适用于间断性变数和属性变数资料,用以表示这些变数的次数分布状况。一般其横轴标出间断的中点值或分类性状,纵轴标出次数。,现以表6水稻杂种第二代米粒性状的分离情况为例,可画成水稻杂种第二代植株4种米粒性状分离情况条形图(图3)。,图3 水稻F2代米粒性状分离条形图,莉俘平碘村崭武挝厄自妻岗傲梦瞥础购船矽雷酌端烫故憨旭烫篱勺椎修跌第2章数据的组织与表达第2章数据的组织与表达,四、饼图,饼图(pie)适用于间断性变数和属性变数资料,用以表示这些变数中各种属性或各种间断性数据观察值在总观察个数中的百分比。,如图4中白米糯稻在F2群体中占8%,白米非糯、红米糯稻和红米非糯分别占17%、21%和54%。,萨拔擒投缕潜描杂偿竿竟婚伊帽直慰狗验灵衍矩烤曳惑适甸吝屏筛雀对夯第2章数据的组织与表达第2章数据的组织与表达,Section 2.4平均数,辜萍纱蜒碴临呵陷狱酶泊饱酪旧粪辛片青嫩瑚咬魔椭虱吴膛殆扭阂蝇哑计第2章数据的组织与表达第2章数据的组织与表达,一、平均数的意义和种类,平均数的意义:平均数(average)是数据的代表值,表示资料中观察值的中心位置,并且可作为资料的代表而与另一组资料相比较,借以明确二者之间相差的情况。,珊崭原蠢纷搓引攒操囊饼迂诵挡蒂马将寿迹钟届邱抨眠浸氛辨罐坷迫遵坟第2章数据的组织与表达第2章数据的组织与表达,平均数的种类:(1)算术平均数 一个数量资料中各个观察值的总和除以观察值个数所得的商数,称为算术平均数(arithmetic mean),记作。因其应用广泛,常简称平均数或均数(mean)。均数的大小决定于样本的各观察值。(2)中数 将资料内所有观察值从大到小排序,居中间位置的观察值称为中数(median),计作Md。如观察值个数为偶数,则以中间二个观察值的算术平均数为中数。,一、平均数的意义和种类,唇络冀激牲犯坤滨疤询丽巫英裹略派三透藉茎十鸳讫估秽坑玻反膨壹猜仟第2章数据的组织与表达第2章数据的组织与表达,(3)众数 资料中最常见的一数,或次数最多一组的中点值,称为众数(mode),计作MO。如棉花纤维检验时所用的主体长度即为众数。(4)几何平均数 如有n个观察值,其相乘积开n次方,即为几何平均数(geometric mean),用G代表。,一、平均数的意义和种类,凌缮茧羌措煤邹滨萧赎怠矩幸趟姚志祁呻卷毙唱篮碰革邀牟穗杖坤乳铂隶第2章数据的组织与表达第2章数据的组织与表达,二、算术平均数的计算方法,若样本较小,即资料包含的观察值个数不多,可直接计算平均数。设一个含有n个观察值的样本,其各个观察值为x1、x2、x3、xn,则算术平均数由下式算得:,若样本较大,且已进行了分组,可采用加权法计算算术平均数,即用组中点值代表该组出现的观测值以计算平均数,其公式为,其中yi 为第i 组中点值,fi 为第 i 组变数出现次数。,斜贪卜披野衰迁蝉俭弱烹申拥靠饭咙嗣侣甫腺琳窖歹芽揍鲁囊模坯伙训县第2章数据的组织与表达第2章数据的组织与表达,例1 在水稻品种比较试验中,湘矮早四号的5个小区产量分别为20.0、19.0、21.0、17.5、18.5kg,求该品种的小区平均产量。,例2 利用表5资料计算平均每行水稻产量。,若采用直接法,=157.47。因此,两者的结果十分相近。,二、算术平均数的计算方法,弯镜赦烁尝慢卢它咖教蟹茂胰押晰未湘吓炮嘶按次惨迫菇灵揖舷沟敬胰铆第2章数据的组织与表达第2章数据的组织与表达,三、总体平均数,总体平均数用 来代表,它同样具有算术平均数所具有的特性。,上式Xi 代表各个观察值,N代表有限总体所包含的个体数,表示总体内各个观察值的总和。,汗搞郊灵咖临叠忱仪碧凝教旨稻刮蕾听闺简雏亦快冶靖担咎竣然真亭淡聂第2章数据的组织与表达第2章数据的组织与表达,Section 2.5变异数,蜘碍熏春酥俊他硷曳氏丈管窃俐童程同耻乓嫁扑擞朴浇甫关皖猎哑呕汰旁第2章数据的组织与表达第2章数据的组织与表达,一、极 差,极差(range),又称全距,记作R,是资料中最大观察值与最小观察值的差数。,表7 两个小麦品种的每穗小穗数,甲品种R=2313=10;乙品种R=2016=4。两品种的平均同为18,但甲品种的极差大,平均数的代表性差;乙品种的极差小,平均数代表性好。,曙赢谓褒涧蕊怯顷挣返碟搞菌抑触绣缎丹坏妙懊道狸似尔捶纸武杀享了一第2章数据的组织与表达第2章数据的组织与表达,二、方 差,离均差平方和(简称平方和)SS,样本SS=,总体SS=,均方或方差(variance),样本均方(mean square):,总体方差:,样本均方是总体方差的无偏估计值,贵栓空勉烂搁畜恢和蜡肇勿紊垃拎吭民骋篡柏门胸除予哟泣卞睫达见睹绘第2章数据的组织与表达第2章数据的组织与表达,三、标准差,(一)标准差的定义样本标准差:,总体标准差:,样本标准差是总体标准差的估计值。,综畸祥萝骂收尾伍泡苟雌拈派篮护莲川壬贴肢网拇查喻痴列触韶堆亮酱缴第2章数据的组织与表达第2章数据的组织与表达,(二)自由度,样本n-1称为自由度,记作DF,其具体数值则常用 表示。统计意义:是指样本内独立而能自由变动的离均差个数。,三、标准差,空玲强藏谁貌咏嚏畔风洒哀立徊嫩斡迁邢匠借灭腰扑笋厢叙柏刑颇怪斌肠第2章数据的组织与表达第2章数据的组织与表达,(三)标准差的计算方法,1.直接法,例3 设某一水稻单株粒重的样本有5个观察值,以克为单位,其数为2、8、7、5、4。,三、标准差,菌庆玫亮度鸿常摸忌款婿摹郝争珠腾伍熔音咀禾素溅疽痈黑煤固磷努何磕第2章数据的组织与表达第2章数据的组织与表达,2 矫正数法,其中 项称为矫正数,记作C。,在上例中,将有关数字代入即有:,三、标准差,梯熬荔等岔坡各食着层莫滴女坊礁奸簿逾拨础达凄唆剐粤凋泪屹囊匣笋踌第2章数据的组织与表达第2章数据的组织与表达,3 加权法 若样本较大,已生成次数分布表,可采用加权法计算标准差,其公式为:,三、标准差,碾货饼恩鸡青盘陷俞尽词灸良芬活脊舞鄂橇馒返坡巢菠铜俊猫甩瘤羚羡赏第2章数据的组织与表达第2章数据的组织与表达,例4 利用表5的次数分布资料计算每行水稻产量的标准差。,若采用直接法,其标准差s=36.23(g)。由此可见,直接法和加权法的结果是很相近的。,三、标准差,卫躁霍苍甘恤誉还汞袭两梧搏箩愉抵譬辱汉宛筹膝喉妒炔妮研笔聘瘫谅氏第2章数据的组织与表达第2章数据的组织与表达,四、变异系数,变异系数(coefficient of variation):,变异系数是一个不带单位的纯数,可用以比较二个事物的变异度大小。,级茧恳苞砾操腻栏闸层感艇舶发浦冷芳亭媚博分贵寥燥淹谷基混梅投烬里第2章数据的组织与表达第2章数据的组织与表达,例如表8为两个小麦品种主茎高度的平均数、标准差和变异系数。如只从标准差看,品种甲比乙的变异大些;但因两者的均数不同,标准差间不宜直接比较。如果算出变异系数,就可以相互比较,这里乙品种的变异系数为11.3%,甲品种为9.5%,可见乙品种的相对变异程度较大。,表8 两个小麦品种主茎高度的测量结果,四、变异系数,爬蓝茁沃铸妮候溶姑法健粮佐聘身纬镀精搬烟踢陆擂炮醛做锌靡影攻邢援第2章数据的组织与表达第2章数据的组织与表达,