质量管理统计方法.ppt
第六章质量管理统计方法,质量特性数据的收集与整理,本 章 重 点,随机变量及其概率分布,统计分析方法,第一节 质量特性数据的收集与整理,一、质量特性数据的类型二、数据的收集与分析三、数据的整理与显示四、数据特征描述,一、质量特性数据的类型,二、数据的收集与分析,(一)总体、个体及样本,二、数据的收集与分析,(二)数据初步分析 已收集的数据作为后续数据处理及统计分析的基础,有必要对其进行初步的分析检验。包括分析数据的来源及真实性,以便进一步确认数据是否准确;审查数据的精确程度和完整性,是否符合必要的使用要求;由专业人士协助设置疑问框,检验是否存在有矛盾或异常数据,并予以剔除,等等。,三、数据的整理与显示,(一)数据排序 数据排序就是将数据按照数值大小、类别等级等规则进行重新排列。特别是当数据类型是定量数据,且数据的数量较为庞大时,通过数据排列更有助于突出一些明显的特征和趋势,并且可以为后面的分组、众数、中位数等统计计算提供便利。,三、数据的整理与显示,(二)数据分组 1数据分组的概念和意义 数据分组是根据统计分析的需要,将数据总体按照一定的分组标志,分成若干个组成部分。对于定性数据,就是按照其不同的属性分为若干组;对于定量数据,则是依据不同的数值或数值范围将数据划分为若干组。分组应使组内差距尽可能小,而组间差异应较为明显。分组有助于显现数据的类别差异、结构情况或数量上的层次性,也有助于简化后续的一些统计计算,是在整理数据时被广泛采用的一种普遍方法。,三、数据的整理与显示,2定性数据分组方法对于定性数据,可以根据统计分析的需要按照数据的类别或等级对数据进行分组。【例6-1】抽取某种产品100个,通过检验,有特等品20个,一等品49个,二等品28个,残次品3个。分组方案一:显然,可以将该数据按照表述中的等级分为四组,显示出具体的产品等级情况。分组方案二:如果只考虑产品的合格率,也可以采用另一种分组方案,将其直接分为两组,即合格产品97个、残次品3个。这两种分组方案各有其针对性,为更直观地显示其类别结构情况,可以采用饼图将这两种分组方案分别表示出来,如图6-1、图6-2所示。,三、数据的整理与显示,3定量数据分组方法 对定量数据进行分组的关键是确定组数、组间距及划分各组界限。(1)组数。(2)组距。组距可以由组数得到,组距用字母h表示:(3)组限。组限就是各个相邻组之间的具体分界值,也就是每一个组的两个端值。(4)组中值。顾名思义,组中值就是一个分组的上限和下限的中间值,即:组中值(5)累计频数。,三、数据的整理与显示,【例6-2】抽取同一批生产的60个某种袋装食品,测量其质量的数值(单位:克),经过审核后进行了排序,数据如下:195.6 196.2 196.3 196.6 196.7 197.0 197.2 197.5 197.7 197.9198.1 198.1 198.2 198.6 198.7 198.7 198.9 199.0 199.2 199.3199.3 199.4 199.6 199.6 199.8 199.9 199.9 200.0 200.0 200.1200.2 200.2 200.3 200.5 200.5 200.6 200.8 200.8 200.9 201.0201.1 201.1 201.4 201.5 201.7 201.7 202.0 202.1 202.5 202.6202.6 203.1 203.3 203.7 203.8 204.1 204.2 204.7 205.2 205.5应用斯特杰斯公式即可得到分组数的一个参考值:所以大致可以将这些数据分为七组左右。,三、数据的整理与显示,三、数据的整理与显示,三、数据的整理与显示,四、数据特征描述,四、数据特征描述,5算术平均数、众数及中位数的关系 算术平均数、众数及中位数三者之间的关系,与数据的分布状态直接相关。当数据的分布状态基本对称时,算术平均数、众数和中位数三者的数值非常接近甚至几乎相同,如图6-5所示。,四、数据特征描述,(二)离散趋势,四、数据特征描述,(二)离散趋势,四、数据特征描述,四、数据特征描述,3离散系数(1)离散系数也称变异系数,就满足了这种要求,它消除了数据绝对量水平高低以及计量单位不同对考察离散程度相对水平的影响。离散系数是采用离差值与平均数的比值,通常用百分数表示。(2)标准差系数及公式,四、数据特征描述,4异众比率5四分位差QD=Q3-Q1,第二节随机变量及其概率分布,一、随机变量二、随机变量的概率分布,一、随机变量,(一)随机变量的含义和表示 随机变量就是用来表示随机现象结果的变量,所以其取值带有随机性,即具体取何值在事先无法确定。作为表征产品性能的指标,产品的质量特性数据普遍都具有随机性,所以每个质量特性本身也就是一个随机变量。随机变量通常用大写字母X、Y、Z等表示,而用相应的小写字母x、y、z等表示它们的取值。,一、随机变量,(二)随机变量的类型 根据随机变量取值类型的不同,随机变量可以分为两种:离散型随机变量和连续型随机变量。离散型随机变量,是只能取有限个或可数个数值的随机变量。例如前面例子中的不合格品数X、铸件内的气孔数Y,就都是离散型随机变量。连续型随机变量,是指可以取一个或多个区间中任意实数值的随机变量。前面例子中电冰箱的使用寿命Z,便是连续型随机变量,再如上一节例6-2中的袋装食品质量,事实上也是属于连续型随机变量。,二、随机变量的概率分布,(一)随机变量概率分布的含义 随机变量的取值具有统计规律性,也就是说对于一个随机变量,完全可以确定其取某个值或在某个区间内取值的概率。所以,既需要了解随机变量所有可能的取值,还需要知道它取这些值的可能性具体是多少。,二、随机变量的概率分布,(二)离散型随机变量的概率分布 设一个离散型随机变量X的所有可能取值为xi(i=1,2,n),并且与其相对应的概率P(X=xi)=pi都是已知的,那么也就确定了该随机变量的概率分布。也可以用表格的形式更直观地表示出来:,二、随机变量的概率分布,【例6-4】某种机械产品的故障维修时间X(以整小时记数),是一个随机变量,且其概率分布为:表6-6 维修时间的概率分布由此可知,当一台该种产品出现故障时,可以在n个小时内将其维修好的概率即为:,二、随机变量的概率分布,(三)连续型随机变量的概率分布 1概率密度函数 类似于离散型随机变量概率分布的两个性质,连续型随机变量X的概率密度函数也需要满足下面两个条件:,二、随机变量的概率分布,2概率分布函数通常,对于一个具体的取值a,概率分布函数F(a)表示的概率为:因此,可以用概率分布函数F(x),来表示随机变量X在区间(a,b)或 a,b 上取值的概率:,二、随机变量的概率分布,由此显而易见,连续型随机变量在一个具体取值点上的概率为0,即它是一条面积等于0的线段。所以,对于连续型随机变量X而言,在区间(a,b)上或在区间 a,b 上取值的概率是相同的。,二、随机变量的概率分布,(四)随机变量的数学特征 随机变量有一些重要的数学特征,以表征其分布的集中位置、离散程度等具体信息,主要包括随机变量的数学期望、方差与标准差。1随机变量的数学期望,二、随机变量的概率分布,随机变量的数学期望,具有如下一些基本的运算性质:(1)常量c的数学期望,等于该常量本身:(2)随机变量与一个常量之和的数学期望,等于随机变量的数学期望与这个常量的和:,二、随机变量的概率分布,(3)随机变量与一个常量乘积的数学期望,等于随机变量的数学期望与这个常量的积:(4)两个随机变量的和或者差的数学期望,等于它们各自数学期望的和或差:(5)两个独立随机变量乘积的数学期望,等于这两个随机变量数学期望的乘积:,二、随机变量的概率分布,2随机变量的方差与标准差在求得一个随机变量的数学期望后,可以进一步求得该随机变量的方差。其方差就是该随机变量与其数学期望离差平方的数学期望,记为D(X)或Var(X):其平方根即为该随机变量的标准差。根据式6-23,可以得到离散型随机变量和连续型随机变量方差的具体计算公式,分别为:,二、随机变量的概率分布,随机变量的方差,具有下列运算性质:(1)常量c的方差等于0:(2)随机变量与一个常量之和的方差,等于该随机变量的方差:(3)随机变量与一个常量乘积的方差,等于该随机变量的方差与这个常量的平方的乘积:(4)两个独立随机变量的和或者差的方差,等于它们各自方差的和:,二、随机变量的概率分布,(五)常用的离散型概率分布 1两点分布 两点分布,也称贝努利分布或01分布。如果一个随机变量X只能取0和1两个值,把其取1的概率记为p,取0的概率记为q,则称X服从参数为p的两点分布。,二、随机变量的概率分布,2二项分布 在n次重复独立试验中,用随机变量X来表示事件A出现的次数,且P(A)=p,则:称X服从参数为n,p的二项分布,记作X B(n,p)。定义中表示的是,在n次试验中事件A出现k次的组合数,其具体的计算公式为:,二、随机变量的概率分布,对于服从二项分布的随机变量X,可以求得其数学期望和方差分别为:,二、随机变量的概率分布,3超几何分布 对应于二项分布适用的抽样条件:有放回抽样或总体较大时的无放回抽样;而当对一个有限总体进行无放回抽样时,其样本中具有某种特征的个体数目,则不再适用二项分布,而是服从超几何分布。超几何分布的概率为:,二、随机变量的概率分布,4泊松分布 如果一个随机变量X的可能取值为0,1,2,k,且其概率为:其中,自然对数底e=2.71828,k=0,1,2,;则称服从参数为的泊松分布,记为X。松分布的数学期望与方差为:,二、随机变量的概率分布,(六)正态分布 1正态分布的定义正态分布的概率密度函数,有时也简称正态函数,或称为Gauss函数。其具体形式为:2正态分布曲线,二、随机变量的概率分布,图6-10 的取值不同,则正态曲线的位置不同图6-11 的取值不同,则正态曲线的形状不同,二、随机变量的概率分布,3标准正态分布 特别地,当时,称服从标准正态分布或单位正态分布,即:ZN(0,1)。并将其密度函数记为:,二、随机变量的概率分布,易见,标准正态曲线以纵轴为对称轴,即。其极大值在z=0时取得:对应于标准正态曲线的概率密度函数,其概率分布函数记为,具体公式为:,二、随机变量的概率分布,在计算标准正态分布的相关概率时,结合其以纵轴为对称轴的性质,可以总结出如下一些关于其概率分布函数的计算公式:,(2),(3),(4),(5),(1),二、随机变量的概率分布,4正态分布的标准化对于一个非标准的正态分布,可以将其标准化,变换为标准正态分布,进而通过查表进行计算。变换公式为:进而可得,对于一般正态分布的概率分布函数F(x):,二、随机变量的概率分布,对于普通的正态分布进行概率计算的一些基本公式:,(1),(2),(3),(4),二、随机变量的概率分布,(七)其他常见的连续型概率分布1均匀分布如果连续型随机变量的概率密度函数为:那么就称服从区间(a,b)上的均匀分布,记为XU(a,b)其概率分布函数为:均匀分布U(a,b)的均值和方差分别为:,二、随机变量的概率分布,2指数分布若随机变量的概率密度函数为:则称服从参数为的指数分布,记为XE(),其中。其相应的概率分布函数为:指数分布的均值和方差分别为:,第三节统计分析方法,一、参数估计二、假设检验三、相关与回归分析四、方差分析,一、参数估计,一、参数估计(一)点估计 也称定值估计,就是通过计算样本的参数值,来估计对应整体参数的一个具体数值。例如用袋装食品质量的样本平均数作为其总体平均质量的估计值。在点估计的各种方法中,最常见的有矩估计法和最大似然估计法。(二)区间估计 区间估计的基本思想就是,依照一定的概率保证程度,用样本统计量估计总体参数的取值范围。就称是参数的置信度为的置信区间。该区间的两个端点分别称为置信下限和置信上限。,二、假设检验,假设检验的基本思路类似反证法,即:先根据已有的信息或经验对总体给出假设,然后通过样本分析来检验这个预先给定的假设,进而做出接受或者拒绝这个假设的判断,并最终推得总体的某个性质是否成立。,二、假设检验,(一)假设检验的步骤假设检验的一般步骤为:1建立假设根据统计分析的实际问题,提出检验假设。通常在假设中包括两个部分:原假设和备择假设。通过假设检验,原假设和备择假设中有且同时只能有一个为真。一般将可能予以否定的假设作为原假设,也称零假设,记为H0;与其对应的假设称为备择假设,记为H1。2选取适当的检验统计量3确定显著性水平4对检验统计量进行计算5判断假设是否成立,二、假设检验,(二)双侧检验与单侧检验 当需要分析的问题是总体平均数等参数是否发生了变化,而不必关心或区分它是变大或者变小的时候,就应该采用双侧检验。这时候,原假设表述为等式,而备择假设是用“”符号表示的不等式。因为双侧检验不论差距的正负,所以此时对于给定的显著性水平,应该对称地平均分配到左右两侧,即每侧各为,并进而确定其相应的临界值。,三、相关与回归分析,1相关关系的分类 依据不同的分类角度,相关关系可以分为不同的类型。诸如:依据涉及变量的多少,分为单相关、复相关和偏相关;依据相关形式,分为线性相关和非线性相关;依据相关现象的变化方向,分为正相关和负相关;依据相关程度,还可以分为完全相关、不完全相关和不相关;等等。,三、相关与回归分析,2线性相关关系 线性相关关系是最简单的相关关系。对于线性相关关系,可以通过计算协方差等,得到用以表征两个变量间线性相关程度的定量指标相关系数,三、相关与回归分析,回归分析 1相关分析与回归分析的关系 相关分析是回归分析的基础和前提,回归分析则是相关分析的深入和继续。具体说来,回归分析需要依靠相关分析来表现变量之间数量变化的相关程度,而相关分析也需要通过回归分析来表达变量之间数量相关的具体形式。,三、相关与回归分析,2一元线性回归分析 回归分析有不同的类型:按照自变量的个数,可分为一元回归分析和多元回归分析;按照回归曲线的形态,可分为线性回归分析和非线性回归分析。其中,一元线性回归分析是回归分析中最基本的类型。,四、方差分析,方差分析也是质量管理中常用的统计技术之一,主要针对多个总体的均值是否有显著性差异的检验问题。如果方差分析中只涉及到一个影响因子,称之为单因素方差分析;如果涉及到的影响因子不止一个,则称为多因素方差分析。其中比较简单也比较常用的,是单因素方差分析以及无交互作用的双因素方差分析。,Thank you,