统计资料的整理与分析.ppt
第2章 统计资料的整理与分析,1 数理统计中的常用术语,1.1 总体与样本 总体:根据研究目的确定的研究对象的全体称为总体(population);个体:总体中的每一个研究单位称为个体(individual);样本:依据一定方法由总体中抽取部分个体所组成的集合称为样本(sample);有限总体:含有有限个个体的总体称为有限总体;无限总体:包含有无限多个个体的总体称为无限总体;,下一张,主 页,退 出,上一张,样本容量:样本中所包含的个体数目叫样本容量或大小(sample size),样本容量常记为n。通常把n30的样本叫小样本,n 30的样本叫大样本。试验研究的目的:了解总体,然而能观测到的却是样本,通过样本来推断总体是统计分析的基本特点。,下一张,主 页,退 出,上一张,为了能可靠地从样本来推断总体,要求样本具有一定的含量和代表性。如何获取有代表性的样本?采用随机抽取。所谓随机抽取(random sampling)是指总体中的每一个个体都有同等的机会被抽取到样本中。样本毕竟只是总体的一部分,尽管样本具有一定的含量也具有代表性,通过样本来推断总体也不可能是百分之百的正确。有很大的可靠性但有一定的错误率这是统计分析的特点。,下一张,主 页,退 出,上一张,1.2 参数与统计量 为了表示总体和样本的数量特征,需要计算特征数。参数:由总体计算的特征数叫参数(parameter);常用希腊字母表示参数,例如用表示总体平均数,用表示总体标准差;统计量:由样本计算的特征数叫统计量(staistic)。常用拉丁字母表示统计量,例如用 表 示样本平均数,用s表示样本标准差,用R表示极差。,下一张,主 页,退 出,上一张,总体,样本,参数,统计量,s,2,方 差,s2,标准差,平均数,R,极 差,抽样,推断、估计,为了了解总体分布、特征,构 造,总体参数由相应的统计量来估计,例如用 估计,用S估计等。1.3 准确性与精确性 准确性(accuracy)也叫准确度,指观测值与其真值的接近程度。设某一试验指标或性状的真值为,观测值为 x,若 x与相差的绝对值|x|越小,则观测值x的准确性越高;反之则低。,下一张,主 页,退 出,上一张,精确性(precision)也叫精确度,指同一试验指标或性状的重复观测值彼此接近的程度。若观测值彼此接近,即任意二个观测值xi、xj 相差的绝对值|xi xj|越小,则观测值精确性越高;反之则低。准确性、精确性的意义见图2-1。,下一张,主 页,退 出,上一张,图2-1 准确性与精确性的关系示意图,随机误差 也叫 抽样误差(sampling error),是由于许多无法控制的内在和外在的偶然因素所造成的。随机误差带有偶然性质,在试验中,即使十分小心的进行试验操作也难以消除。随机误差不可避免,但可减少。随机误差影响试验的精确性。,下一张,主 页,退 出,上一张,1.4 随机误差(random error)与系统误差(systematic error),统计上的试验误差是指随机误差。这种误差愈小,试验的精确性愈高。系统误差 也叫 片面误差(lopsided error),这是 由于试验对象相差较大,测量的仪器不准、标准试剂未经校正,以及观测、记载、抄录、计算中的错误等等所引起。系统误差可以通过改进方法、正确试验设计来避免、消除。系统误差影响试验的准确性。,下一张,主 页,退 出,上一张,正确地进行试验数据资料的分类是统计资料整理的前提。在调查或试验中,由观察、测量所得的数据资料按其性质的不同,一般可以分为数量性状资料、质量性状资料和半定量(等级)资料三大类。,下一张,主 页,退 出,上一张,2 统计资料的分类,数量性状(quantitative character)是指能够以测量、计量或计数的方式表示其特征的性状。观察测定数量性状而获得的数据就是数量性状资料 数量性状资料的获得有测量和计数两种方式,因而数量性状资料 又分为计量资料和计数资料两种。,下一张,主 页,退 出,上一张,2.1 数量性状资料,用测量方式获得的数量性状资料,即用度、量、衡等计量工具直接测定获得的数量性状资料。其数据是用长度、容积、重量等来表示。这种资料的各个观测值不一定是整数,两个相邻的整数间可以有带小数的任何数值出现,其小数位数的多少由度量工具的精度而定,它们之间的变异是连续性的。因此,计量资料也称为连续性变异资料。,下一张,主 页,退 出,上一张,2.1.1 计量资料,2.1.2 计数资料 指用计数方式获得的数量性状资料。在这类资料中,它的各个观察值只能以整数表示,在两个相邻整数间不得有任何带小数的数值出现。这些观察值只能以整数来表示,各观察值是不连续的,因此该类资料也称为不连续性变异资料或间断性变异资料。,下一张,主 页,退 出,上一张,2.2 质量性状资料 质量性状(qualitative character)是指能观察到而不能直接测量的,只能用文字来描述其特征的性状,如食品颜色、风味等等。这类性状本身不能直接用数值表示,要获得这类性状的数据资料,须对其观察结果作数量化处理,其方法有以下两种:,下一张,主 页,退 出,上一张,2.2.1 统计次数法 在一定的总体或样本中,根据某一质量性状的类别统计其次数,以次数作为质量性状的数据。例如,苹果中全红果个数与半红果个数。由质量性状数量化而得来的资料又叫 次数资料。,2.2.2 评分法 对某一质量性状,因其类别不同,分别给予评分。例如,分析面包的质量,可以按照国际面包评分细则进行打分,综合评价面包质量。新产品开发中的评价打分等等。,2.3 半定量(等级)资料 半定量或等级资料(semi-quantitative or ranked data)是指将观察单位按所考察的性状或指标的等级顺序分组,然后清点各组观察单位的次数而得的资料。这类资料既有次数资料的特点,又有程度或量的不同。如某种果实的褐变程度是视果实变色面积将其分组,然后统计各级别果数。,三种不同类型的资料相互间是有区别的,但有时可根据研究的目的和统计方法的要求将一种类型资料转化成另一种类型的资料。例如,酸奶中的乳杆菌总数得到的资料属于计数资料,根据化验的目的,可按乳杆菌总数正常或不正常分为两组,清点各组的次数,计数资料就转化为质量性状次数资料;如果按乳杆菌总数过高、正常、过低分为三组,清点各组次数,就转化成了半定量资料。,下一张,主 页,退 出,上一张,3 数据资料的整理,3.1 数据资料的检查与核对 目的:在于确保原始资料的完整性和正确性。所谓完整性是指原始资料无遗缺或重复。所谓正确性是指原始资料的测量和记载无差错或未进行不合理的归并。检查中要特别注意特大、特小和异常数据(可结合专业知识作出判断)。对于有重复、异常或遗漏的资料,应予以删除或补齐;对有错误、相互矛盾的资料应进行更正,必要时进行复查或重新试验。,下一张,主 页,退 出,上一张,未整理的资料为原始资料,是零星的、孤立的和杂乱无章,无规律可循,通过科学的整理和分析,可发现其规律性,揭示事物内在本质。,3.2 数据资料的整理方法 当观测值不多(n30)时,不必分组,可直接进行统计分析。当观测值较多(n30)时,宜将观测值分成若干组,以便统计分析。将观测值分组后,制成次数分布表,即可看到资料的集中和变异情况。,下一张,主 页,退 出,上一张,3.2 连续性资料(计量资料)的整理 连续性资料的整理,需要先确定全距、组数、组距、组中值及组限,然后将全部观测值计数归组。【例2.1】为了分析某生产厂的罐头质量,现随机抽取100听罐头样品,分别称取其净重,数据资料见表2-1。,下一张,主 页,退 出,上一张,表21 100听罐头样品的净重 g,1、求全距 R 全距是数据资料中的最大值与最小值之差,又称为极差(range),用R表示。即 R=Max(xi)-Min(xi)xi为观测值 本例 Max=358.2 Min=331.2 R=358.2-331.2=27.0,下一张,主 页,退 出,上一张,2、确定组数 k 组数的多少视样本含量及资料的变动范围大小而定,一般以达到既简化资料又不影响反映资料的规律性为原则。组数要适当,不宜过多,亦不宜过少。分组越多所求得的统计量越精确,但增大了运算量;若分组过少,资料的规律性就反映不出来,计算出的统计量的精确性也较差。一般组数的确定,可参考表2-2。,下一张,主 页,退 出,上一张,下一张,主 页,退 出,上一张,本例中,n100,初步确定组数为9组。,表2-2 样本含量与组数,3、确定组距 i 每一组中的最大值与最小值之差称为组距(Class interval),记为 i。分组时一般要求各组的组距相等。组距(i)全距R组数k 本例 i279=3,下一张,主 页,退 出,上一张,4、确定组限及组中值 各组的最大值与最小值称为组限。最小值称为下限,最大值称为上限。每一组的中点值称为组中值,它是该组的代表值。组中值与组限、组距的关系如下:组中值(组下限组上限)/2组下限1/2组距组上限1/2组距,下一张,主 页,退 出,上一张,组距确定后,首先要选定第一组的组中值。在分组时为了避免第一组中观察值过多,一般第一组的组中值以接近或等于资料中的最小值为好。第一组组中值确定后,该组组限即可确定,其余各组的组中值和组限也可相继确定。注意:最末一组的上限应大于资料中的最大值。,表2-1中,最小值为331.2,第一组的组中值取331.0,因组距为3.0,因此 第一组的下限应为:331.0-(1/2)3.0329.5;第一组的上限也就是第二组的下限应为:329.5+3.0=332.5;第二组的上限也就是第三组的下限为:332.5+3.0=335.5,依此类推,一直到某一组的上限大于资料中的最大值为止。依次类推分组为:329.5-332.5,332.5-335.5,,下一张,主 页,退 出,上一张,将正好等于前一组上限和后一组下限的数据,一般约定将其归入后一组。通常将上限略去不写。第一组记为36.0,第二组记为39.0,5、制作次数分布表 分组结束后,将资料中的每一观测值逐一归组,统计每组内所包含的观测值个数,制作次数分布表。,下一张,主 页,退 出,上一张,表2-3 100听罐头净重的次数分布,下一张,主 页,退 出,上一张,100听罐头的单听净重多数集中在343g,约占观测值总个数的1/3,用它来描述罐头单听净重的平均水平,有较强的代表性。由次数分布表可以看出,每听罐头净重小于332.5g及大于356.5g的为极少数。100听罐头净重分布基本以343.0g为中心,向两边做递减对称分布。,表2-4 100盒鲜枣每盒检出不合格枣数,下一张,主 页,退 出,上一张,3.3 间断性资料(计数资料)的整理 以100盒鲜枣每盒检出不合格枣数为例,说明间断性资料的整理。,计数资料观察值较多时,变异范围较大,若以每一观察值为一组,则组数太多,而每组内包含的观察值太少,资料的规律性显示不出来。对于这样的资料,可扩大为以几个相邻观察值为一组,适当减少组数,这样资料的规律性就较明显,对资料进一步计算分析也比较方便。,下一张,主 页,退 出,上一张,表2-5 100盒鲜枣每盒检出不合格枣数次数分布表,下一张,主 页,退 出,上一张,3.4质量性状资料、半定量(等级)资料的整理 对于质量性状资料、半定量(等级)资料,可按性状或等级进行分组,分别统计各组的次数,然后制成次数分布表。,下一张,主 页,退 出,上一张,3.5 常用统计表与统计图,3.5.1 统计表(1)统计表的结构和要求 统计表由标题、横标目、纵标目、线条、数字及合计构成,其基本格式如下表:,下一张,主 页,退 出,上一张,表号 标题 编制统计表的总原则:结构简单,层次分明,内容安排合理,重点突出,数据准确,便于理解和比较分析。,下一张,主 页,退 出,上一张,统计表编制具体要求如下:标题 标题要简明扼要、准确地说明表的内容,有时须注明时间、地点。标目 标目分横标目和纵标目两项。横标目列在表的左侧,用以表示被说明事物的主要标志;纵标目列在表的上端,说明横标目各统计指标内容,并注明计算单位,如、kg、cm等等。数字 一律用阿拉伯数字,数字以小数点对齐,小数位数一致,无数字的用“”表示,数字是“0”的,则填写“0”。线条 表的上下两条边线略粗,纵、横标目间及合计用细线分开,表的左右边线可省去,表的左上角一般不用斜线。,下一张,主 页,退 出,上一张,(2)统计表的种类 统计表可根据纵、横标目是否有分组分为简单表和复合表两类。简单表 由一组横标目和一组纵标目组成,纵横标目都未分组。此类表适于简单资料的统计,如表2-6。,下一张,主 页,退 出,上一张,复合表 由两组或两组以上的横标目与一组纵标目结合而成,或由一组横标目与两组或两组以上的纵标目结合而成,或由两组或两组以上的横、纵标目结合而成。此类表适用于复杂资料的统计,如表2-11。,下一张,主 页,退 出,上一张,表2-11 几种动物性食品的营养成分,3.5.2 统计图 常用的统计图有长条图(bar chart)、圆饼图(pie chart)、线图(linear chart)、直方图(histogram)和 折线图(broken-line chart)等。一般情况下,计量资料采用直方图和折线图,计数资料、质量性状资料、半定量(等级)资料常用长条图、线图或园饼图。,下一张,主 页,退 出,上一张,统计图绘制的基本要求 1、标题简明扼要,列于图的下方。2、纵、横两轴应有刻度,注明单位。3、横轴由左至右、纵轴由下而上,数值由小到大;图形长宽比例约5:4或6:5。4、图中需用不同颜色或线条代表不同处理、样品等时,应有图例说明。,下一张,主 页,退 出,上一张,Excel软件应用,工具-加载宏-分析数据库数据分析方差分析回归分析统计假设检验直方图描述统计,4.1 描述中心趋势的统计量平均数(mean,average),下一张,主 页,退 出,上一张,4 统计资料的特征数,平均数是统计学中最常用的统计量,反映数据资料的相对集中位置。平均数主要包括有:算术平均数(arithmetic mean)中位数(median)众数(mode)几何平均数(geometric mean)调和平均数(harmonic mean),4.1.1 算术平均数(arithmetic mean)算术平均数是指资料中各观测值的总和除以观测值个数所得的商,简称平均数或均数,记为。算术平均数可根据样本大小及分组情况而采用直接法或加权法计算。1.直接法 主要用于样本含量n30以下、未经分组资料平均数的计算。,下一张,主 页,退 出,上一张,设某一资料包含n个观测值:x1、x2、xn,则样本平均数可通过下式计算:(2-1)其中,为总和符号;表示从第一个观测值x1累加到第n个观测值xn。当 在意义上已明确时,可简写为x,(3-1)式可改写为:,下一张,主 页,退 出,上一张,例:对10位同学的体重进行测定,测定结果分别为50.0、52.0、53.5、56.0、58.5、60.0、48.0、51.0、50.5、49.0(kg),求其平均数。由于 x=50.0+52.0+53.5+56.0+58.5+60.0+48.0+51.0+50.5+49.0=528.5,n=10,下一张,主 页,退 出,上一张,那么 10位同学的平均体重为52.85 kg。2.加权法 对于样本含量 n30 以上且已分组的资料,可以在次数分布表的基础上采用加权法计算平均数,计算公式为:(2-2),下一张,主 页,退 出,上一张,式中:第i组的组中值;第i组的次数;分组数 第i组的次数fi是权衡第i组组中值xi在资料中所占的比重大小,因此将fi 称为是xi的“权”,加权法也由此而得名。【例】100听罐头净重(单位:kg)资料整理成次数分布表如下,求其加权数平均数。,下一张,主 页,退 出,上一张,表2-3 100听罐头净重的次数分布,下一张,主 页,退 出,上一张,利用加权法计算平均数公式计算:100听罐头每听净重的加权平均数为342.67 g。注意:计算若干个来自同一总体的样本平均数的平均数时,如果样本含量不等,也应采用加权法计算。,下一张,主 页,退 出,上一张,【例】某牛群有黑白花奶牛 1500头,其平均体重为750 kg,而另一牛群有黑白花奶牛1200头,平均体重为725 kg,如果将这两个牛群混合在一起,其混合后平均体重为多少?此例两个牛群所包含的牛的头数不等,要计算两个牛群混合后的平均体重,应以两个牛群牛的头数为权,求两个牛群平均体重的加权平均数,即,下一张,主 页,退 出,上一张,即两个牛群混合后平均体重为738.89 kg。3.平均数的基本性质(1)样本各观测值与平均数之差的和为零,即离均差之和等于零。或简写成,下一张,主 页,退 出,上一张,(2)样本各观测值与平均数之差的平方和为最小,即离均差平方和为最小。(xi-)2(xi-a)2(常数a)或简写为:对于总体而言,通常用表示总体平均数,有限总体的平均数为:,下一张,主 页,退 出,上一张,(2-3),式中,N表示总体所包含的个体数,当一个统计量的数学期望等于所估计的总体参数时,则称此统计量为该总体参数的无偏估计量。统计学中常用样本平均数()作为总体平均数()的估计量,并已证明样本平均数是总体平均数的无偏估计量。,下一张,主 页,退 出,上一张,4.1.2 中位数(median)将资料内所有观测值由小到大依次排列,位于中间的那个观测值,称为中位数,记为Md。当观测值的个数是偶数时,则以中间两个观测值的平均数作为中位数。当所获得的数据资料呈偏态分布时,中位数的代表性优于算术平均数。,下一张,主 页,退 出,上一张,(1)当观测值个数n为奇数时,第(n+1)/2位置的观测值,即x(n+1)/2为中位数:Md=(2)当观测值个数为 偶 数 时,第n/2和第(n/2+1)位置的两个观测值之和的1/2为中位数,即:,下一张,主 页,退 出,上一张,(2-4),【例】对9个小麦品种的容重进行测定,测定结果为750、760、767、769、773、775、778、780、800(已排序),求其中位数。此例 n=9,为奇数,则:Md=773(g)即九个小麦品种的中位数为773 g。,下一张,主 页,退 出,上一张,4.1.3 几何平均数(geometric mean)n 个观测值相乘之积开 n 次方所得的方根,称为几何平均数,记为G。它主要应用于科学研究中的动态分析,如微生物的增长率、人口的增长率等等。当观测值呈几何级数变化时,用几何平均数比用算术平均数更能代表其平均水平。其计算公式如下:,下一张,主 页,退 出,上一张,(2-6),为了计算方便,可将各观测值取对数后相加除以n,得lgG,再求lgG的反对数,即得G值,即,下一张,主 页,退 出,上一张,4.1.4 众 数(mode)资料中出现次数最多的那个观测值或次数最多一组的组中值,称为众数,记为M0。,下一张,主 页,退 出,上一张,4.1.5 调和平均数(harmonic mean)资料中各观测值倒数的 算术平均数 的倒数,称为调和平均数,记为H,即,(28),计算平均速率,4.2描述离散趋势的统计量变异数,变异数的意义 用平均数作为样本的代表,其代表性的强弱受样本资料中各观测值变异程度的影响。仅用平均数对一个资料的特征作统计描述是不全面的,还需引入度量资料中观测值变异程度大小的统计量。常用的表示变异程度的统计量有全距、方差、标准差和变异系数。,下一张,主 页,退 出,上一张,4.2.1 全距(Range)全距(极差)是表示资料中各观测值变异程度大小最简便的统计量。RMax-Min R值越大,平均数的代表性越差。但是全距只利用了资料中的最大值和最小值,没有充分利用全部资料,并不能准确表达资料中各观测值的变异程度,是比较粗略的。当资料很多而又要迅速对资料的变异程度作出判断时,可以利用全距这个统计量。,下一张,主 页,退 出,上一张,为 了 准 确 地 表示样本内各个观测值的变异程度,人们 首 先会考虑到以平均数为标准,求出各个观测值与平均数的离差,(),称为离均差。虽然离均差能表示一个观测值偏离平均数的性质和程度,但因为离均差有正、有负,离均差之和为零,即=0,因 而 不 能 用离均差之和()来 表 示 资料中所有观测值的总偏离程度。,下一张,主 页,退 出,上一张,4.2.2 方差(Variance),为了解决离均差有正、有负,离均差之和为零的问 题,可先求 离 均 差的绝 对 值 并 将 各 离 均 差 绝对 值 之 和 除以 观 测 值 个 数 n 求 得 平 均 绝 对 离差,即|/n。虽然平均绝对离差可以表示资料中各观测值的变异程度,但由于平均绝对离差包含绝对值符号,使用很不方便,在统计学中未被采用。,采用将离均差平方的办法来解决离均差有正、有负,离均差之和为零的问题。先将各 个离 均差平方,即()2,再求 离均差平方和,即,简称平方和,记为SS;由 于 离差平方和 常 随 样 本 大 小 而 改 变,为 了 消 除 样 本大小 的 影 响,用平方和 除 以 样 本 大 小,即,求出离均差平方和的平均数;,下一张,主 页,退 出,上一张,为了使所得的统计量是相应总体参数的无 偏估计量,统计学证明,在求离均差平方和的平均数时,分母不用样本含量n,而用自由度 n-1,所以,我们 采 用统计量 表示资料的变异程度。统计量 称 为 均 方(mean square缩写为MS),又称样本方差,记为S2,即 S2=(29),下一张,主 页,退 出,上一张,相应的总体参数叫 总体方差,记为2。对于有限总体而言,2的计算公式为:(210),统计学上把样本方差 S2 的平方根叫做样本标准差,记为S,即:,下一张,主 页,退 出,上一张,4.2.3 标准差(Stand deviation),(2-11),由于 所以(2-11)式可改写为:,下一张,主 页,退 出,上一张,相应的总体参数叫总体标准差,记为。对于有限总体而言,的计算公式为:(2-12)在统计学中,常用样本标准差S估计总体标准差。,下一张,主 页,退 出,上一张,4.2.4 标准差的计算方法1.直接法 对于未分组或小样本资料,可直接利用定义公式来计算标准差。,【例】10瓶罐头的净重(g)分别为450,450,500,500,500,550,550,550,600,600,650,计算标准差。由已知,计算:x=5400,x2=2955000,代入公式得:10瓶罐头净重的标准差为65.828 g。,下一张,主 页,退 出,上一张,(g),2.加权法 对于已制成次数分布表的大样本资料,可利用次数分布表,采用加权法计算标准差。计算公式为:,下一张,主 页,退 出,上一张,式中,fi为各组次数;xi为各组的组中值;fi=n为总次数。,【例】由次数分布计算100听罐头净重的标准差。,下一张,主 页,退 出,上一张,4.43 g,3.标准差的特性(1)标准差的大小,受资料中每个观测值的影响,如观测值间变异大,求得的标准差也大,反之则小。(2)计算标准差时,在各观测值加上或减去一个常数,其数值不变。(3)每个观测值乘以或除以一个常数a,则所得的标准差是原来标准差的a倍或1/a倍。,下一张,主 页,退 出,上一张,(4)在资料服从正态分布的条件下,资料中约有68.26%的观测值在平均数左右一倍标准差(S)范围内;约有95.43%的观测值在平均数左右两倍标准差(2S)范围内;约有99.73%的观测值在平均数左右三倍标准差(3S)范 围内。也就是说全距近似地等于6倍标准差,可用(全距/6)来粗略估计标准差。,下一张,主 页,退 出,上一张,熟 记,4.2.5 变异系数Coefficient of variation),变异系数是衡量资料中各观测值变异 程度的另一个统计量。标 准差与平均数的比值称为 变异系数,记为CV。变异系数可以消除单位 和(或)平 均数的影响,可以比较不同样本资料的相对变异程度。,下一张,主 页,退 出,上一张,变异系数的计算公式为:,下一张,主 页,退 出,上一张,(213),表2-8 赞皇大枣果皮厚、角质层厚测量结果,角质层相对变异程度大,注意:变异系数的大小,同时受平均数和标准差两个统计量的影响,因而在利用变异系数表示资料的变异程度时,最好将平均数和标准差也列出。,下一张,主 页,退 出,上一张,5 异常数据的处理51 可疑值、极端值和异常值 当对同一样品进行多次重复测定时,常常发现一组分析数据中某一两个测定值比其他测定值明显地偏大或偏小,我们将其视为可疑值。可疑值可能是测定值随机波动的极端表现,即极端值(包括极大或极小值),它们虽然明显地偏离多数测定值,但仍然处于统计上所允许的误差范围之内,与多数测定值属于同一总体。当然有些可疑值可能与多数测定值并非属于同一总体,这样的可疑值称为异常值。,例 在科学试验或营养成分测定时,极端值的出现是难免的,但极端值并非都是异常值。如何判断呢?其检验的理论基础是随机样本的正态分布理论。,在一组测定值中,出现大偏差测定值的概率是很小的。例如,与平均数相比偏差大于2倍标准差的测定值出现的概率不足5,平均每20次测定中出现不到一次;偏差大于3倍标准差的测定值,出现的概率就更小,不足1。通常的分析测试只进行少数几次测定,按常规来说,出现大偏差测定值的可能性本应是非常小的。如果竟然出现了,根据“小概率事件的实际不可能性”,自然就不能看做是随机因素作用而造成的。我们有理由将偏差大于2倍或3倍标准差的测定值看做是异常值予以剔除。,5.2检出异常值的方法利用算术平均误差检查 除掉可疑值后,求出:,思考题,总体、样本、参数、统计量的概念及其关系精确性、准确性、随机误差、系统误差的概念及其关系如何计算平均数、方差、标准差、变异系数,其意义、性质是什么,