基本统计技术及应用.ppt
基本统计技术及应用,1什么是统计,我们为什么需要统计(What&Why),2几种重要的概率分布,对统计技术的理解或应用上的常见误区,3抽样分布,4置信区间估计,5假设检验,6抽样检查与C曲线,目录,1什么是统计,我们为什么需要统计(What&Why),统计是数学的一个分支,它涉及到以下两方面的内容:*收集,整理以及用合适的方式展示数据(描述型统计)对样本进行分析并在此基础上对包含样本的总体的 一项或多项特征做出推测(推测型统计),1什么是统计,我们为什么需要统计(What&Why),关键词,总体-我们所研究对象所包含的全部个体(Member),样本-从总体中选取的一部分用于分析的个体,统计量-用以描述样本的某方面特性的一个数学量,参数-用以描述总体的某方面特性的一个数学量,Examples:Marital StatusPolitical PartyEye Color(Defined categories),Examples:Number of ChildrenDefects per hour(Counted items),Examples:WeightVoltage(Measured characteristics),1什么是统计,我们为什么需要统计(What&Why),数据类型,1什么是统计,我们为什么需要统计(What&Why),在实际工作中,对某一对象进行全体考察往往十分费时费力甚至是不可能的,因此,需要采用适当的抽样计划并应用适当的统计技术对抽样所得的数据进行分析处理,在此基础上对研究对象总体的一个或多个特性做出科学合理的推测,以辅助我们的判断与决策.,Continuous Probability Distributions,Binomial,Poisson,Probability Distributions,Discrete Probability Distributions,Normal,2几种重要的概率分布,P(X),n,X!,n,X,p,(1-p),X,n,X,!,(,),!,=,-,-,2几种重要的概率分布,2.1二项分布,概率分布函数,P(X)=probability of X successes in n trials,with probability of success p on each trial X=number of successes in sample,(X=0,1,2,.,n)n=sample size(number of trials or observations)p=probability of“success”,n=5 p=0.1,n=5 p=0.5,Mean,0,.2,.4,.6,0,1,2,3,4,5,X,P(X),.2,.4,.6,0,1,2,3,4,5,X,P(X),0,*二项分布的形状取决于样本大小 n 以及独立个体的概率 p,Here,n=5 and p=0.1,Here,n=5 and p=0.5,2几种重要的概率分布,二项分布的适用条件(或前提假设):,每一个体的考察结果只能是两种互斥的可能性的其中一种,而且任 一个体取得该两种可能性的其中一种的概率相等*任一个体的考察结果均不影响其它个体,应用抽样计划的确定及其风险评估(见第部分),2几种重要的概率分布,2几种重要的概率分布,2.2泊松分布,概率分布函数,X=number of events in an area of opportunity=expected number of eventse=base of the natural logarithm system(2.71828.),2几种重要的概率分布,*泊松分布的形状取决于参数,=0.50,=3.00,2几种重要的概率分布,泊松分布的适用条件(或前提假设):,*在一片(或一段)连续区域(时间,面积,长度等)上某一点发生 某事件的机会(概率)等于在其它任何一点上发生该某事件的 机会(概率),在一片(或一段)连续区域(时间,面积,长度等)上发生某事件 的次数(或个数)对该事件在其它连续区域上发生的次数(或个 数)没有影响,当该连续区域(时间,面积,长度等)的大小趋近于零时,该事 件在其上发生两次或两次以上的机会(概率)趋近于零,2.1正态分布,2几种重要的概率分布,概率密度函数,e=the mathematical constant approximated by 2.71828=the mathematical constant approximated by 3.14159=the population mean=the population standard deviationX=any value of the continuous variable,2几种重要的概率分布,*正态分布的形状与位置取决于总体参数和,2几种重要的概率分布,任何正态分布均可通过以下公式转化为标准正态分布(“Z”Distribution)即=0,=1 的正态分布,2几种重要的概率分布,正态分布的概率计算(例),设 X 服从=8,=5的正态分布,求X落在7.4之间的概率 P(7.4 X 8),X,7.4,8.0,P(7.4 X 8)=P(-0.12 Z 0)=P(Z 0)P(Z-0.12)=0.5000-0.4522=0.0478,0.0478,0.4522,Z,-0.12,0,The Normal distribution is symmetric,so this probability is the same as P(0 Z 0.12),2几种重要的概率分布,一组数据的正态性检验,按以下步骤做出正态分布概率图,*将数据按从小到大的顺序排列,算出(或查表得出)每一个数据 点在该组数据中所处位置所对应 分布概率的标准正态分布值,以值为横坐标,实际数据为纵 坐标做出散点图,若散点图上的点子大致处在一条 直线上,则认为该组数据分布 为正态或接近正态,Normal,3抽样分布,什么是抽样分布?,抽样分布是当我们对某一总体以某一固定的样本容量反复抽样,直到对应于该样本容量的所有可能的组合全部被取到的情况下,样本的某一统计量所呈现出的分布规律.,Sampling Distributions,Sampling Distribution of the Mean,Sampling Distribution of the Proportion,3抽样分布,通常,我们所研究的抽样分布有以下两种,3抽样分布,Assume there is a population Population size N=4Random variable,X,is age of individualsValues of X:18,20,22,24(years),A,B,C,D,以下例子是关于均值(或数学期望)的抽样分布,Uniform Distribution,x,Summary Measures for the Population Distribution:,3抽样分布,.3,.2,.1,0,18 19 20 21 22 23 24 A B C D,P(x),x,Summary Measures for the Population Distribution:,3抽样分布,16 possible samples(sampling with replacement),Now consider all possible samples of size n=2,16 Sample Means,3抽样分布,Sampling Distribution of All Sample Means,18 19 20 21 22 23 24,0,.1,.2,.3,P(X),X,Sample Means Distribution,16 Sample Means,_,(no longer uniform),_,3抽样分布,Summary Measures of this Sampling Distribution:,3抽样分布,18 19 20 21 22 23 24,0,.1,.2,.3,P(X),X,18 19 20 21 22 23 24 A B C D,0,.1,.2,.3,PopulationN=4,P(X),X,_,Sample Means Distributionn=2,_,3抽样分布,3抽样分布,1从同一总体中以同样的样本容量抽取的样本,其均值并不一样,而 是有一定的波动.,2样本均值的波动程度可以用标准误差来衡量.,(注意:抽样过程应该是对无限总体的不放回抽样,或有限总体的放回抽样),3可以看出,当样本容量增大时,该标准误差随之减小.,样本均值抽样分布的规律:,3抽样分布,样本均值抽样分布的规律:,1当总体为均值为,标准差为的正态分布时,样本均值 同样呈正态分布,其均值与标准差为:,3抽样分布,样本均值抽样分布的规律:,2(Central Limit Theorem)当总体偏离甚至明显偏离正态分布时,只要 样本容量足够大,样本均值 同样呈正态分布,其均值与标准差为:,3抽样分布,*对绝大多数总体而言,当样本容量大于 30 时,可以认为其均值的抽样 分布接近正态.对一个大致呈对称分布的总体而言,当样本容量大于 15 时,可以认为 其均值的抽样分布接近正态.对一个呈正态分布的总体而言,无论样本容量大小,其均值的抽样分布 呈正态,3抽样分布,=总体的某一特性(或特征)在该总体中所占的比例.样本比例(p)可以用来对进行估计(推测):0 p 1p 呈二项分布假设抽样过程是对无限总体的不放回抽样,或有限总体的放回抽样,样本比例的抽样分布:,Approximated by anormal distribution if:where and,(where=population proportion),Sampling Distribution,P(p),.3.2.1 0,0.2.4.6 8 1,p,3抽样分布,样本比例的抽样分布:,4置信区间估计,A point estimate is a single number,a confidence interval provides additional information about variability,Point Estimate,Lower Confidence Limit,UpperConfidence Limit,Width of confidence interval,点估计(Point Estimate)与区间估计(Interval Estimate),4置信区间估计,We can estimate a Population Parameter,with a SampleStatistic(a Point Estimate),Mean,Proportion,p,X,点估计(point estimate),区间估计(Interval Estimate),4置信区间估计,当以点估计方式用样本统计量估计总体参数时,存在多大不确定度?,相对于点估计而言,区间估计可以提供有关总体参数更多的信息.,这样的区间在统计上称为”置信区间”,即以预先设定要求的信心水平估计出总体的某个参数可能的分布范围.,4置信区间估计,常用的置信区间估计类型,1当总体方差已知时,用样本均值估计总体均值.,2当总体方差未知时,用样本均值估计总体均值.,3用样本中某特性所占的比例估计该特性在总体中所占比例,Point Estimate(Critical Value)(Standard Error),统计上一般使用以下公式进行计算,4置信区间估计,(mean,is unknown),Population,Random Sample,Mean X=50,Sample,4置信区间估计,当总体方差已知时,用样本均值估计总体均值.,假设:总体呈正态分布*总体的方差已知*当对总体呈正态分布这一假设没有足够信心时,样本容量应足够大,where is the point estimate Z is the normal distribution critical value for a probability of/2 in each tail is the standard error,置信区间估计公式,4置信区间估计,Consider a 95%confidence interval:,Z=-1.96,Z=1.96,Point Estimate,Lower Confidence Limit,UpperConfidence Limit,Z units:,X units:,Point Estimate,0,当总体方差已知时,用样本均值估计总体均值.,4置信区间估计,当总体方差未知时,用样本均值估计总体均值.,当总体方差未知时,可以用样本方差估计总体方差.由于在同一总体中取出的不同样本的方差存在一定的波动,这一估计会给总体均值的估计结果引入一定的不确定度,所以我们应使用 t 分布替代 Z 分布来进行置信区间估计,4置信区间估计,置信区间估计公式,假设:总体呈正态分布*总体的方差未知*当对总体呈正态分布这一假设没有足够信心时,样本容量应足够大,当总体方差已知时,用样本均值估计总体均值.,where t is the critical value of the t distribution with n-1 degrees of freedom and an area of/2 in each tail,4置信区间估计,t,0,t(df=5),t(df=13),t-distributions are bell-shaped and symmetric,but have fatter tails than the normal,Standard Normal(t with df=),T 分布曲线与 Z 分布曲线的对比,随着样本容量的增大,t 分布曲线越来越接近 Z 分布曲线,4置信区间估计,用样本中某特性所占的比例估计该特性在总体中所占比例,当样本容量足够大时,样本中某特性所占比例将近似服从正态分布(参见第三部分),where Z is the standard normal value for the level of confidence desiredp is the sample proportionn is the sample size,我们可以用以下公式进行比例问题的区间估计,5假设检验,什么是假设检验,预先对单个或多个总体的某一参数作出某一假设,并从总体中抽取样本以计算出一个或多个统计量,然后在假定该假设成立的前提下计算出样本统计量取得实际计算值的概率.当该概率低于某一预设的要求水平时,对预先假设(统计上称为”原假设”)予以拒绝,否则即接受原假设.,假设检验是一种利用抽样分布理论辅助决策判断的方法,它通常是通过以下方式实现的:,假设检验,单样本假设检验,双样本假设检验,5假设检验,Two-Sample Tests,Population Means,Independent Samples,Means,Related Samples,Population Variances,Mean 1 vs.independent Mean 2,Same population before vs.after treatment,Variance 1 vs.Variance 2,Examples:,Population Proportions,Proportion 1 vs.Proportion 2,双样本假设检验的种类,Population means,independent samples,1 and 2 known,*,Use a Z test statistic,Use Sp to estimate unknown,use a t test statistic and pooled standard deviation,1 and 2 unknown,assumed equal,1 and 2 unknown,not assumed equal,Use S1 and S2 to estimate unknown 1 and 2,use a separate-variance t test,5假设检验,互相独立的双样本的均值检验问题,5假设检验,Population means,independent samples,1 and 2 known,Assumptions:Samples are randomly and independently drawn Population distributions are normal or both sample sizes are 30 Population standard deviations are known,*,1 and 2 unknown,assumed equal,1 and 2 unknown,not assumed equal,1和2已知时,互相独立的双样本的均值检验问题,Population means,independent samples,1 and 2 known,and the standard error of X1 X2 is,When 1 and 2 are known and both populations are normal or both sample sizes are at least 30,the test statistic is a Z-value,*,1 and 2 unknown,assumed equal,1 and 2 unknown,not assumed equal,5假设检验,1和2已知时,互相独立的双样本的均值检验问题,Population means,independent samples,1 and 2 known,The test statistic for 1 2 is:,*,1 and 2 unknown,assumed equal,1 and 2 unknown,not assumed equal,5假设检验,1和2已知时,互相独立的双样本的均值检验问题,Two Population Means,Independent Samples,Lower-tail test:H0:1 2 0H1:1 2 0,Upper-tail test:H0:1 2 0H1:1 2 0,Two-tail test:H0:1 2=0H1:1 2 0,a,a/2,a/2,a,-za,-za/2,za,za/2,Reject H0 if Z-Za,Reject H0 if Z Za,Reject H0 if Z Za/2,5假设检验,1和2已知时,互相独立的双样本的均值检验问题,第一类风险:当两总体之间实际上不存在显著差异,但由于抽样的偶然性造成 误判为存在显著差异(即错误地拒绝原假设的情况),第二类风险:当两总体之间实际上存在显著差异,但由于抽样的偶然性造成误 判为不存在显著差异(即错误地接受原假设的情况),Population means,independent samples,1 and 2 known,The confidence interval for 1 2 is:,*,1 and 2 unknown,assumed equal,1 and 2 unknown,not assumed equal,5假设检验,1和2已知时,互相独立的双样本的均值检验问题,Population means,independent samples,1 and 2 known,Assumptions:Samples are randomly and independently drawn Populations are normally distributed or both sample sizes are at least 30 Population variances are unknown but assumed equal,*,1 and 2 unknown,assumed equal,1 and 2 unknown,not assumed equal,5假设检验,1和2未知但假设其相等时,互相独立的双样本的均值检验问题,5假设检验,Population means,independent samples,1 and 2 known,*,Forming interval estimates:The population variances are assumed equal,so use the two sample variances and pool them to estimate the common 2 the test statistic is a t value with(n1+n2 2)degrees of freedom,1 and 2 unknown,assumed equal,1 and 2 unknown,not assumed equal,1和2未知但假设其相等时,互相独立的双样本的均值检验问题,5假设检验,1和2未知但假设其相等时,互相独立的双样本的均值检验问题,Population means,independent samples,1 and 2 known,The pooled variance is,*,1 and 2 unknown,assumed equal,1 and 2 unknown,not assumed equal,Population means,independent samples,1 and 2 known,Where t has(n1+n2 2)d.f.,and,The test statistic for 1 2 is:,*,1 and 2 unknown,assumed equal,1 and 2 unknown,not assumed equal,5假设检验,1和2未知但假设其相等时,互相独立的双样本的均值检验问题,链接至 t 分布曲线,Population means,independent samples,1 and 2 known,The confidence interval for 1 2 is:,Where,*,1 and 2 unknown,assumed equal,1 and 2 unknown,not assumed equal,5假设检验,1和2未知但假设其相等时,互相独立的双样本的均值检验问题,5假设检验,1和2未知且无法假设其相等时,互相独立的双样本的均值检验问题,Population means,independent samples,1 and 2 known,Assumptions:Samples are randomly and independently drawn Populations are normally distributed or both sample sizes are at least 30 Population variances are unknown but cannot be assumed to be equal,*,1 and 2 unknown,assumed equal,1 and 2 unknown,not assumed equal,5假设检验,1和2未知且无法假设其相等时,互相独立的双样本的均值检验问题,Population means,independent samples,1 and 2 known,The test statistic for 1 2 is:,*,1 and 2 unknown,assumed equal,1 and 2 unknown,not assumed equal,链接至 t 分布曲线,5假设检验,样本中个体互相一 一对应的双样本的均值检验问题,(例如:一组样品在专用夹具上测量与其从夹具上拆下来测量结果的均值 对比,一组工件在热处理前后的对比,等等),Di=X1i-X2i,Assumptions:Both Populations Are Normally DistributedOr,if not Normal,use large samples,计算每一对个体之间的差,5假设检验,样本中个体互相一 一对应的双样本的均值检验问题,对两总体的均值差异量的点估计公式为:,假设两个总体中各成对个体之间差值的标准差已知为 D,则可用Z统计量与Z分布来进行假设检验,两总体的均值差异量的置信区间估计为:,5假设检验,样本中个体互相一 一对应的双样本的均值检验问题,如果D未知,则可以计算样本的标准差SD以对D作出估计,相应地,假设检验的统计量由 Z 改为 t,置信区间估计的公式相应地变为,5假设检验,样本中个体互相一 一对应的双样本的均值检验问题,Lower-tail test:H0:D 0H1:D 0,Upper-tail test:H0:D 0H1:D 0,Two-tail test:H0:D=0H1:D 0,a,a/2,a/2,a,-ta,-ta/2,ta,ta/2,Reject H0 if t-ta,Reject H0 if t ta,Reject H0 if t ta/2,Where t has n-1 d.f.,5假设检验,总体中某一特性所占比例问题的双样本的均值检验问题,目的:通过假设检验来判断两个总体中某一特性所占比例是否存在足够显著的差异,以及建立两者之间差异 1 2 的置信区间,1 2 的点估计为,Assumptions:n1 1 5,n1(1-1)5n2 2 5,n2(1-2)5,既然我们的原假设为 1=2,即两总体中的比例相等,那么我们可以计算两个总体在一起总的比例为,where X1 and X2 are the numbers from samples 1 and 2 with the characteristic of interest,5假设检验,总体中某一特性所占比例问题的双样本的均值检验问题,使用以下 Z 统计量与 Z 分布进行假设检验,置信区间估计公式为,5假设检验,总体中某一特性所占比例问题的双样本的均值检验问题,Lower-tail test:H0:1 2 0H1:1 2 0,Upper-tail test:H0:1 2 0H1:1 2 0,Two-tail test:H0:1 2=0H1:1 2 0,a,a/2,a/2,a,-za,-za/2,za,za/2,Reject H0 if Z-Za,Reject H0 if Z Za,Reject H0 if Z Za/2,5假设检验,双样本方差的假设检验问题,如果两个总体各自都服从正态分布,则从这两个总体中随机抽取的样本的方差之比值服从 F 分布,检验统计量为,F 分布曲线的形状由两个自由度决定,即分子样本的自由度 n1-1 和分母样本的自由度 n2-1,F,0,F,0,rejection region for a two-tail test is:,FL,Reject H0,Do not reject H0,F,0,FU,Reject H0,Do not reject H0,F,0,/2,Reject H0,Do not reject H0,FU,H0:12=22H1:12 22,H0:12 22H1:12 22,H0:12 22H1:12 22,FL,/2,Reject H0,Reject H0 if F FL,Reject H0 if F FU,5假设检验,双样本方差的假设检验问题,注意:F 检验对两个总体是否服从正态分布十分敏感,当总体的分布有所偏离正态时,会明显影响 F 检验结果的统计正确性,6抽样检查与OC曲线,质量检查,抽样检查,全检,全件:可以获得待检查总体的完整准确的信息 不用承担因信息不完整带来的决策风险 通常成本高昂,有些情况下不可能实现,抽样检查:只能通过样本信息对总体作出推测 需要承担一定的因信息不完整带来的决策风险 可以有效地节约成本,有些情况下是唯一选择,6抽样检查与OC曲线,对应每一个具体的抽样检查计划,我们可以通过其OC 曲线来评估它的决策风险,当从无限总体中以不放回方式抽取样品或从有限总体中以放回方式抽取样品时,可以用二项分布函数来建立OC曲线当从有限总体中以不放回方式抽取样品时,应该以超几何分布函数来建立OC曲线.随着样本容量相对于总体容量的比例减小,该曲线越来越接近用二项分布函数建立的曲线,6抽样检查与OC曲线,生产方风险与客户方风险,假设对于产品的某质量性能,生产方与客户经研究谈判后约定,坏品率超过4%时属于客户不可接受水平.同时,根据生产方对工序能力的研究,认为即使当工序运行一切正常时,仍然会产生不超过0.4%的坏品率,6抽样检查与OC曲线,如何正确理解 AQL(Acceptable Quality Level)抽样计划,通常所使用的“连续生产批的AQL抽样计划”对产品质量的保障是建立在以下假设的基础上的,生产工序(或制造过程)处于正常稳定的状况,1工序能力所能保障的质量水平以一定的程度高于客户要求,在这两个假设的前提下,结合经济方面的考虑,我们所选取的连续生产批的AQL抽样计划在设计上有时并没有特别照顾到客户方风险,所以,当我们需要对已知存在潜在质量风险的一批或多批产品进行抽样检查并做出处理时,不能简单从我们所选取的连续生产批的AQL抽样计划中选取一个来采用,而应该在对客户方风险进行控制的前提下设计或选取抽样计划,对统计技术的理解或应用上的常见误区,随机随意?,随机抽样是几乎所有统计理论得以成立的基石,它有着严格的定义,总体中的各个个体有相同的被抽中的概率,总体中的各个个体是否被抽中是互相独立的,对随机原则的背离可能会一定程度地甚至是严重地导致错误的统计判断与决策,应用统计技术分析数据时,将它与其他的质量工具割裂开来,最常见的错误是将其与趋势图(Trend Chart)或控制图(Control Chart)割裂开来,趋势图(Trend Chart)或控制图(Control Chart)所包含的时间序列的信息是许多其他工具包括许多统计工具所不能提供的,所以,在面对具体问题时,有可能的情况下尽量先从趋势图或控制图中观察读取研究对象在时间序列上的信息,对统计技术的理解或应用上的常见误区,应用统计技术(特别是假设检验)时,对所应用的技术得以 成立的统计假设(或先决条件)没有足够的认识,而简单地 进行数学运算并得出结论,不同的先决条件对统计结论是否成立的影响程度是不一样的,对于那些特别敏感的(如总体的正态性假设对双样本 F 检验的影响程度)尤其要特别注意,运用假设检验做判断或下结论时,对两类误判风险(尤其是 第二类风险的评估没有足够深入的理解而草率地下结论,第一类风险:当两总体之间实际上不存在显著差异,但由于抽样的偶然性造成 误判为存在显著差异(即错误地拒绝原假设的情况),第二类风险:当两总体之间实际上存在显著差异,但由于抽样的偶然性造成误 判为不存在显著差异(即错误地接受原假设的情况),第一类风险可以直接从假设检验结果的 p 值(p Value)做出清晰判断,而第二类风险则与样本容量以及两总体参数真值(往往是不可知的)的真实差异的大小有关,对统计技术的理解或应用上的常见误区,脱离对研究对象的实际经验或技术理解,而单纯依赖统计 数据分析结果做判断或决定,统计技术只是一个帮我们进行数据分析并从中提取有效信息的工具,它不能替代工程师对所研究问题的实际经验以及技术层面的理解,E N D,