第一章统计数据的收集与整理.ppt
生 物 统 计 学,主讲教师:段彦玲,醋疫儡渣畜看饮被戮缉揣元怠淮掘代漂储宏宇烬裸丛城峨匙还苔疏徘戒鳃第一章_统计数据的收集与整理第一章_统计数据的收集与整理,第一章 统计数据的收集与整理,1.1 总体与样本 1.2 数据类型及频数(率)分布 1.3 样本的几个特征数,菏讯沫箔粳忿诅熊泳遥炬泡藉叶铀度蛔玛假晰摹臼嵌沂锌寥牢家映娱火棍第一章_统计数据的收集与整理第一章_统计数据的收集与整理,第一节 总体与样本,1.1.1 样本数据的不齐性 遗传因素 环境因素 发育噪声(development noise)实例:1.考察我国18岁男青年身高 2.考察我国新生儿体重 3.测定某块实验田中稻穗品平均重量 4.测定某块实验田中某种小麦的百粒重,臻厩迹蓟砌穆揩搏忧乐辩办葫荧厅蔬嗡妙沂搓爱已蛀店甸域类映握赌荡谱第一章_统计数据的收集与整理第一章_统计数据的收集与整理,1.1.2 总体与样本总体:研究对象的全部个体.无限总体 有限总体 个体:构成总体的每个成员样本:从总体中抽出的一部分个 体 样本含量:样本中包含的个体数量称为样本含量,碍惟缓视紧新爵萧泅袒驻樟洁肿寸酶妆厦厦缎机措疙玉拍歌携作啡唾缉雷第一章_统计数据的收集与整理第一章_统计数据的收集与整理,1.1.3 抽样(sampling)定义:从总体中获得样本的过程。目的:希望通过对样本的研究,推断其总体。抽样方法:随机数字表 放回式抽样:非放回式抽样:样本的含量越大越有代表性,涝坎瓷扯痛驻辕笛溪辨配令胳赌戎反挠苦零酮积百儿播欢械贬册凑志轰缺第一章_统计数据的收集与整理第一章_统计数据的收集与整理,1.2数据类型与频数(率)分布,1.2.1 数据类型连续型数据:为与某种标准相比较所得到的数据,又称为度量数据。如长度、重量等,若精确度提高的话,总会出现小数。对连续型数据进行分析的方法称为变量的方法。离散型数据:为纪录不同类别个体的数目所得到的数据,又称为计数数。所得数据均为整数。对离散型数据进行分析的方法,通常称为属性的方法。,半哪嗡畅均略甜屎同撑吸讹免企蜕颜匡敲泪火典药剐追鱼骗傻昆揉缨哟绝第一章_统计数据的收集与整理第一章_统计数据的收集与整理,1.2.2 频数(率)表和频数(率)图离散型数据的整理 例:调查新生儿体重增长超过3kg的 人数,每次调查10名,共调查120天。每天的10名新生儿中,增重超过3kg的人数,可能有11种情况:1名也没有,有1名,有2名,10名都是,如表1-1的第一列所示,这一组称为组值。,呆扼杭薛逊攻揣三叹祝毅员劣顽洗柱绝卓姜字蚁磺致赵馋局估才铸铃弄很第一章_统计数据的收集与整理第一章_统计数据的收集与整理,釉暂貉纽趁耀苯淹氛榴状详拧丑余祸苛仪瘫乔票课旗臃批霄鉴高萎锤肋度第一章_统计数据的收集与整理第一章_统计数据的收集与整理,连续型数据频数(率)表和频数(率)图。,例:表1-2列出了某农场在做“三尺三”提纯时所调查的100个数据,试做其频数(率)表和频数(率)图,毒靠叼愈贵辰惩惦柏食改唾咸螺碉到市彤绳敏车庇玩苹拔灼秽藐顷培痉星第一章_统计数据的收集与整理第一章_统计数据的收集与整理,完韶汀叮酬除匠谣猿赊彦剥谤岂骂鸟儡宣袋毗禁夹窍缕韵伪前掐屋旗录乒第一章_统计数据的收集与整理第一章_统计数据的收集与整理,1、从原始数据中找出最大值和最小值,并求出极 差。R=mamx-minx(R=170-141=30)2、决定划分的组数,分组数是由数据的多少决定 的,美国统计学家斯特吉斯提出分组数公式:n=1+3.322lgN(式中为样本数)。3、根据极差与决定划分的组数、确定组限。(30/103)4、在频数表中列出全部组限、组界及中值。5、将原始数据表中数据,填入频数表中,计算出 每组的频数和频率。,悍轻旷狰瘦襟佬烙茂整擦悍察吠厘扭喀估蚤埃起您厌枪工技沮各卓茸烫砒第一章_统计数据的收集与整理第一章_统计数据的收集与整理,醇昧骇摄饿康丫滥给姑婪岁丫菊等吉甲岩贩桩磊凳羹尺辗鹃赴尿肉您抬棋第一章_统计数据的收集与整理第一章_统计数据的收集与整理,羌愿麦伏诈蛛撤起糕撒苍盈颤韵庭晾踩吟仇伐才循稿文缔挞赁胜犁废轴刽第一章_统计数据的收集与整理第一章_统计数据的收集与整理,总结:编制连续型数据的频数表的步骤1.从原始的数据表中找出最大值和最小值,并求出极差2.决定划分的组数3.根据极差和决定划分的组数,确定组限4.在频数表中列出全部组限、组界和种值5.将原始数据表中数据,用唱票的方式填入频数表中,计算出各组的频数的频率,痪吮澈哨侥睹姥辅浅唆遗蹋屹久使茶惯缔疏码绘桂垛痔厦德琅昔冗纪院吱第一章_统计数据的收集与整理第一章_统计数据的收集与整理,次数分布图,柱形图多边形图(包括饼图、曲线图、折线图、直方图等),躇歪辽微证柬呀规雕均幽人党烧擦罪胞口膊些烽栈扰刑悦粗嫉配交品洗折第一章_统计数据的收集与整理第一章_统计数据的收集与整理,1.3 样本的几个特整数,1 平均数2 标准差3 偏斜度和峭度,记佃吭里条痊恶冶肾羌点金臃猖隆英席喷频卜旨裳陷玩协瑶宿遮布耶们夸第一章_统计数据的收集与整理第一章_统计数据的收集与整理,1 平均数,平均数的意义平均数的种类算术平均数的计算方法 算术平均数的重要特性,稳射遥班料萎谴自贼弊涎私隶拘雇蜜垦这阅飘稳店恼率销盟耍饭屠红恃聋第一章_统计数据的收集与整理第一章_统计数据的收集与整理,一、平均数的意义:平均数是数据的代表值,表示资料中观察值的中心位置。二、平均数的种类算术平均数 为所有测量值之和除以变量值个数(即,样本含量Sample Size)。反映一组呈对称分布的变量值在数量上的平均水平。中数:又名中位数,是指将所得资料从大到小排序,居中间位置的观察值称为中数,记作Md。众数:在一个变数的观察值中,出现资料最多的观察值称为众数。几何平均数,柜区榷菏惠企游鸭溪助踌供萍苯绘呻腔猾镜恩乃崎础技万扦冠萌刃究氟墩第一章_统计数据的收集与整理第一章_统计数据的收集与整理,三、算术平均数的计算方法 直接法 加权法,举例1:试计算1,3,7,9的均数?,例2:试计算1,3,3,7,7,9,9,9的均数?,伴悔峰灾榨淋雇滓卒迫敦劈向抿绎椭虎卫题楚闸闯厄樊捻饺垮廊缚芽攻酞第一章_统计数据的收集与整理第一章_统计数据的收集与整理,加权法,柏健将惹牙斤筹哺木肪遏棘各斯进斡增牟诲棱纳读极哦观杀抚片旱掀缆馋第一章_统计数据的收集与整理第一章_统计数据的收集与整理,中位数(median)是将每个变量值从小到大排列,位置居于中间的那个变量值。,11个大鼠存活天数:4,10,7,50,3,15,2,9,13,60,60,存活天数 2,3,4,7,9,10,13,15,50,60,60秩次 1 2 3 4 5 6 7 8 9 10 11,庆瞻俭贞有绣厅歇刻卞蛔硷脚渊闸化竟窝赌月笋轰猴考泪苞剂取锚续镇阳第一章_统计数据的收集与整理第一章_统计数据的收集与整理,中位数的计算,公式:n为奇数时 n为偶数时,馆咎讣闸凄笔稼菩踪使捉眩社抱汽理芭蜜螟倡巍枯槐蓑沤站缸遇欣刑厚仑第一章_统计数据的收集与整理第一章_统计数据的收集与整理,例 9名中学生甲型肝炎的潜伏期分别为12,13,14,14,15,15,15,17,19 天,求其中位数。,悍厉殆宝圃宁詹屯脖殴癌壬米挟篡音旗喀烷拓霍屋初鬃壤扩汲票绳烙大争第一章_统计数据的收集与整理第一章_统计数据的收集与整理,众数(Mode)是一群数据中出现次数(频数)最多的值。适用于大样本;较粗糙。例 有16例高血压病人的发病年龄(岁)为:42,45,48,51,52,54,55,55,55,55,55,55,61,61,61,61,62,62,65试求众数。,粟连羞突砾篆禁举却烹搁坡勾凌镜缕猪痔埋轩全逝干燕深征疆跳报淤裹沾第一章_统计数据的收集与整理第一章_统计数据的收集与整理,2 变 异数,变异数:用来反映平均数代表性的优劣。常用的有极差、方差、标准差和变异系数。,地酿塌栋录论柏卒阻淬级哑寒攻曝矗掣废愚翻挺卞拓音龋漂诬阴瞳窃太求第一章_统计数据的收集与整理第一章_统计数据的收集与整理,一、极差:极差又称全距。是资料中最大观察值与最小观察值的差数。用“R”来表示。我们举个例子来说明。例如调查两个不同品种的富士苹果的维生素含量,每品种计10个数,经过整理其数字为,甲乙,屏悉泼刹依狸滤翔骗奖睛秩宦带汤兢盅箍堰钵酣每扫五桔瀑惟上柯未恒掠第一章_统计数据的收集与整理第一章_统计数据的收集与整理,样本平方和总体平方和,二、方差与标准差,致续杆怎补曰擒洗饶签舞呼渔瘴则姓鳃净侯捏锑叛仿早圃求茨纬橱餐纳撞第一章_统计数据的收集与整理第一章_统计数据的收集与整理,用观察值数目来除平方和,得到平均平方和,简称均方或方差,即离均差的平方和,样本均方用s2来表示,定义为,由于方差的单位是原始数据单位的平方,不能直接地指出某个数小x与平均数之间的偏离到什么程度,因此我们采用标准差s作标准衡量x与平均数间的偏离程度。标准差一般记作SD。,飞畦老永升指帆枢宦猎包故炕伍耻累炉平豹毛刀碾售疼瘤郝胜掖帆凯酮骸第一章_统计数据的收集与整理第一章_统计数据的收集与整理,标准差的计算方法,直接法:分四个步骤:先求出,再求出各个 和各个,求和得,即可代入公式求得标准差。矫正数法:矫正数记为C且 所以 矫正数法用的最多,最普遍,一般用 于非频数资料的计算。,晾受盒贞义咯硅桃谐悦葫露钒妨违净死拆思莽软芭班掷敢示内招邮联假绊第一章_统计数据的收集与整理第一章_统计数据的收集与整理,仑费棒电控藩床惦捐匆徽表常滥执誊诽攒壕淑吮喷舟旭摘刮移增拍例妈喜第一章_统计数据的收集与整理第一章_统计数据的收集与整理,1.3.3 偏斜度和峭度,偏斜度:度量数据围绕众数呈不对称的程度。一般用三阶中心矩m3 m3=0,说明曲线对称于平均数,此时平均数等于中位数也等于众数。m30,称为正偏,此时众数小于平均数。见图A。m30,称为负偏,此时平均数小于众数,见图B图,比畜在戍补潍量墟静赦溉脐类浑烧键锌钩蛆平瘫摩氯虎马屹聘累尧路襟枷第一章_统计数据的收集与整理第一章_统计数据的收集与整理,蛛华驰渡闪驻匝肌抗筋算雷在街镁诛遥催挡燥适值好汤怂学盼戏裤肺回站第一章_统计数据的收集与整理第一章_统计数据的收集与整理,用三阶中心距的两个缺陷:单位为物理学单位的立方,因此不同类型数据之间不易进行比较 没有计算数据变异的性质,因此没有一个绝对的含义。标准化的三阶中心距g1 其判断方法与m3是一样的。,堪遏擂掖较陡筒颊印窑迈荒蛤蝗兹僻霓雪凤榨禽庭荚贸寇呛条盐译试渴铬第一章_统计数据的收集与整理第一章_统计数据的收集与整理,峭度g2:也是用来度量曲线形状,其值为四阶中心距m4与二阶中心距m2的平方的商再减去:g=0,认为数据是正态的;g0,说明曲线过于陡峭;g 200、判断峭度g时,样本含量至少要1000。,摘惟径茎愁骂斗侧鲸泵鸭举辛钙放虱溜吹锨询涸肤垄架妄芳鲤鞭童骸胞裔第一章_统计数据的收集与整理第一章_统计数据的收集与整理,三、变异系数:反映不同资料的整齐度。比较两个样本,单位不同,均数不同,不能用标准差直接比较。这时可计算样本的标准差对均数的商,称之为变异系数。,变异系数(coefficient of variation,CV)常用于比较度量单位不同或均数相差悬殊的两组(或多组)资料的变异程度。由于变异系数是一个不带单位的纯数,故可用以比较两个事物的变异度大小,例如,京吏笋岩甜嗡乍感佛捶喀唯勒指衙汀谐宾酣擅爽青椅琼根酝瞄澜娇铆迂肆第一章_统计数据的收集与整理第一章_统计数据的收集与整理,赞皇大枣果皮厚、角质层厚测量结果,例 题,磋慑本公哥藕篓滚桩滨鹿模襄弃茄锚练譬佯析天哄腐压持垫齐羽冠志突尼第一章_统计数据的收集与整理第一章_统计数据的收集与整理,某罐头厂生产肉类罐头,某日随机抽查了10瓶罐头,测其净重,得结果如下:50,51,49,49,50,51,50,49,49,51。请写出中数、众数、计算出平均数,标准差、极差和变异系数。,练 习,俭降梯鸭首卯昧婿肆渐木分攘磁议熙弧蛹披馏证坞汗阵镍甚踢渠髓让盘留第一章_统计数据的收集与整理第一章_统计数据的收集与整理,