基本统计技术及应用.ppt
《基本统计技术及应用.ppt》由会员分享,可在线阅读,更多相关《基本统计技术及应用.ppt(76页珍藏版)》请在三一办公上搜索。
1、基本统计技术及应用,1什么是统计,我们为什么需要统计(What&Why),2几种重要的概率分布,对统计技术的理解或应用上的常见误区,3抽样分布,4置信区间估计,5假设检验,6抽样检查与C曲线,目录,1什么是统计,我们为什么需要统计(What&Why),统计是数学的一个分支,它涉及到以下两方面的内容:*收集,整理以及用合适的方式展示数据(描述型统计)对样本进行分析并在此基础上对包含样本的总体的 一项或多项特征做出推测(推测型统计),1什么是统计,我们为什么需要统计(What&Why),关键词,总体-我们所研究对象所包含的全部个体(Member),样本-从总体中选取的一部分用于分析的个体,统计量-
2、用以描述样本的某方面特性的一个数学量,参数-用以描述总体的某方面特性的一个数学量,Examples:Marital StatusPolitical PartyEye Color(Defined categories),Examples:Number of ChildrenDefects per hour(Counted items),Examples:WeightVoltage(Measured characteristics),1什么是统计,我们为什么需要统计(What&Why),数据类型,1什么是统计,我们为什么需要统计(What&Why),在实际工作中,对某一对象进行全体考察往往十分费时
3、费力甚至是不可能的,因此,需要采用适当的抽样计划并应用适当的统计技术对抽样所得的数据进行分析处理,在此基础上对研究对象总体的一个或多个特性做出科学合理的推测,以辅助我们的判断与决策.,Continuous Probability Distributions,Binomial,Poisson,Probability Distributions,Discrete Probability Distributions,Normal,2几种重要的概率分布,P(X),n,X!,n,X,p,(1-p),X,n,X,!,(,),!,=,-,-,2几种重要的概率分布,2.1二项分布,概率分布函数,P(X)=pr
4、obability of X successes in n trials,with probability of success p on each trial X=number of successes in sample,(X=0,1,2,.,n)n=sample size(number of trials or observations)p=probability of“success”,n=5 p=0.1,n=5 p=0.5,Mean,0,.2,.4,.6,0,1,2,3,4,5,X,P(X),.2,.4,.6,0,1,2,3,4,5,X,P(X),0,*二项分布的形状取决于样本大小
5、n 以及独立个体的概率 p,Here,n=5 and p=0.1,Here,n=5 and p=0.5,2几种重要的概率分布,二项分布的适用条件(或前提假设):,每一个体的考察结果只能是两种互斥的可能性的其中一种,而且任 一个体取得该两种可能性的其中一种的概率相等*任一个体的考察结果均不影响其它个体,应用抽样计划的确定及其风险评估(见第部分),2几种重要的概率分布,2几种重要的概率分布,2.2泊松分布,概率分布函数,X=number of events in an area of opportunity=expected number of eventse=base of the natura
6、l logarithm system(2.71828.),2几种重要的概率分布,*泊松分布的形状取决于参数,=0.50,=3.00,2几种重要的概率分布,泊松分布的适用条件(或前提假设):,*在一片(或一段)连续区域(时间,面积,长度等)上某一点发生 某事件的机会(概率)等于在其它任何一点上发生该某事件的 机会(概率),在一片(或一段)连续区域(时间,面积,长度等)上发生某事件 的次数(或个数)对该事件在其它连续区域上发生的次数(或个 数)没有影响,当该连续区域(时间,面积,长度等)的大小趋近于零时,该事 件在其上发生两次或两次以上的机会(概率)趋近于零,2.1正态分布,2几种重要的概率分布,
7、概率密度函数,e=the mathematical constant approximated by 2.71828=the mathematical constant approximated by 3.14159=the population mean=the population standard deviationX=any value of the continuous variable,2几种重要的概率分布,*正态分布的形状与位置取决于总体参数和,2几种重要的概率分布,任何正态分布均可通过以下公式转化为标准正态分布(“Z”Distribution)即=0,=1 的正态分布,2几种重
8、要的概率分布,正态分布的概率计算(例),设 X 服从=8,=5的正态分布,求X落在7.4之间的概率 P(7.4 X 8),X,7.4,8.0,P(7.4 X 8)=P(-0.12 Z 0)=P(Z 0)P(Z-0.12)=0.5000-0.4522=0.0478,0.0478,0.4522,Z,-0.12,0,The Normal distribution is symmetric,so this probability is the same as P(0 Z 0.12),2几种重要的概率分布,一组数据的正态性检验,按以下步骤做出正态分布概率图,*将数据按从小到大的顺序排列,算出(或查表得出
9、)每一个数据 点在该组数据中所处位置所对应 分布概率的标准正态分布值,以值为横坐标,实际数据为纵 坐标做出散点图,若散点图上的点子大致处在一条 直线上,则认为该组数据分布 为正态或接近正态,Normal,3抽样分布,什么是抽样分布?,抽样分布是当我们对某一总体以某一固定的样本容量反复抽样,直到对应于该样本容量的所有可能的组合全部被取到的情况下,样本的某一统计量所呈现出的分布规律.,Sampling Distributions,Sampling Distribution of the Mean,Sampling Distribution of the Proportion,3抽样分布,通常,我们
10、所研究的抽样分布有以下两种,3抽样分布,Assume there is a population Population size N=4Random variable,X,is age of individualsValues of X:18,20,22,24(years),A,B,C,D,以下例子是关于均值(或数学期望)的抽样分布,Uniform Distribution,x,Summary Measures for the Population Distribution:,3抽样分布,.3,.2,.1,0,18 19 20 21 22 23 24 A B C D,P(x),x,Summar
11、y Measures for the Population Distribution:,3抽样分布,16 possible samples(sampling with replacement),Now consider all possible samples of size n=2,16 Sample Means,3抽样分布,Sampling Distribution of All Sample Means,18 19 20 21 22 23 24,0,.1,.2,.3,P(X),X,Sample Means Distribution,16 Sample Means,_,(no longer
12、 uniform),_,3抽样分布,Summary Measures of this Sampling Distribution:,3抽样分布,18 19 20 21 22 23 24,0,.1,.2,.3,P(X),X,18 19 20 21 22 23 24 A B C D,0,.1,.2,.3,PopulationN=4,P(X),X,_,Sample Means Distributionn=2,_,3抽样分布,3抽样分布,1从同一总体中以同样的样本容量抽取的样本,其均值并不一样,而 是有一定的波动.,2样本均值的波动程度可以用标准误差来衡量.,(注意:抽样过程应该是对无限总体的不放回抽
13、样,或有限总体的放回抽样),3可以看出,当样本容量增大时,该标准误差随之减小.,样本均值抽样分布的规律:,3抽样分布,样本均值抽样分布的规律:,1当总体为均值为,标准差为的正态分布时,样本均值 同样呈正态分布,其均值与标准差为:,3抽样分布,样本均值抽样分布的规律:,2(Central Limit Theorem)当总体偏离甚至明显偏离正态分布时,只要 样本容量足够大,样本均值 同样呈正态分布,其均值与标准差为:,3抽样分布,*对绝大多数总体而言,当样本容量大于 30 时,可以认为其均值的抽样 分布接近正态.对一个大致呈对称分布的总体而言,当样本容量大于 15 时,可以认为 其均值的抽样分布接
14、近正态.对一个呈正态分布的总体而言,无论样本容量大小,其均值的抽样分布 呈正态,3抽样分布,=总体的某一特性(或特征)在该总体中所占的比例.样本比例(p)可以用来对进行估计(推测):0 p 1p 呈二项分布假设抽样过程是对无限总体的不放回抽样,或有限总体的放回抽样,样本比例的抽样分布:,Approximated by anormal distribution if:where and,(where=population proportion),Sampling Distribution,P(p),.3.2.1 0,0.2.4.6 8 1,p,3抽样分布,样本比例的抽样分布:,4置信区间估计,A
15、 point estimate is a single number,a confidence interval provides additional information about variability,Point Estimate,Lower Confidence Limit,UpperConfidence Limit,Width of confidence interval,点估计(Point Estimate)与区间估计(Interval Estimate),4置信区间估计,We can estimate a Population Parameter,with a Sample
16、Statistic(a Point Estimate),Mean,Proportion,p,X,点估计(point estimate),区间估计(Interval Estimate),4置信区间估计,当以点估计方式用样本统计量估计总体参数时,存在多大不确定度?,相对于点估计而言,区间估计可以提供有关总体参数更多的信息.,这样的区间在统计上称为”置信区间”,即以预先设定要求的信心水平估计出总体的某个参数可能的分布范围.,4置信区间估计,常用的置信区间估计类型,1当总体方差已知时,用样本均值估计总体均值.,2当总体方差未知时,用样本均值估计总体均值.,3用样本中某特性所占的比例估计该特性在总体中所
17、占比例,Point Estimate(Critical Value)(Standard Error),统计上一般使用以下公式进行计算,4置信区间估计,(mean,is unknown),Population,Random Sample,Mean X=50,Sample,4置信区间估计,当总体方差已知时,用样本均值估计总体均值.,假设:总体呈正态分布*总体的方差已知*当对总体呈正态分布这一假设没有足够信心时,样本容量应足够大,where is the point estimate Z is the normal distribution critical value for a probabil
18、ity of/2 in each tail is the standard error,置信区间估计公式,4置信区间估计,Consider a 95%confidence interval:,Z=-1.96,Z=1.96,Point Estimate,Lower Confidence Limit,UpperConfidence Limit,Z units:,X units:,Point Estimate,0,当总体方差已知时,用样本均值估计总体均值.,4置信区间估计,当总体方差未知时,用样本均值估计总体均值.,当总体方差未知时,可以用样本方差估计总体方差.由于在同一总体中取出的不同样本的方差存
19、在一定的波动,这一估计会给总体均值的估计结果引入一定的不确定度,所以我们应使用 t 分布替代 Z 分布来进行置信区间估计,4置信区间估计,置信区间估计公式,假设:总体呈正态分布*总体的方差未知*当对总体呈正态分布这一假设没有足够信心时,样本容量应足够大,当总体方差已知时,用样本均值估计总体均值.,where t is the critical value of the t distribution with n-1 degrees of freedom and an area of/2 in each tail,4置信区间估计,t,0,t(df=5),t(df=13),t-distributi
20、ons are bell-shaped and symmetric,but have fatter tails than the normal,Standard Normal(t with df=),T 分布曲线与 Z 分布曲线的对比,随着样本容量的增大,t 分布曲线越来越接近 Z 分布曲线,4置信区间估计,用样本中某特性所占的比例估计该特性在总体中所占比例,当样本容量足够大时,样本中某特性所占比例将近似服从正态分布(参见第三部分),where Z is the standard normal value for the level of confidence desiredp is the
21、sample proportionn is the sample size,我们可以用以下公式进行比例问题的区间估计,5假设检验,什么是假设检验,预先对单个或多个总体的某一参数作出某一假设,并从总体中抽取样本以计算出一个或多个统计量,然后在假定该假设成立的前提下计算出样本统计量取得实际计算值的概率.当该概率低于某一预设的要求水平时,对预先假设(统计上称为”原假设”)予以拒绝,否则即接受原假设.,假设检验是一种利用抽样分布理论辅助决策判断的方法,它通常是通过以下方式实现的:,假设检验,单样本假设检验,双样本假设检验,5假设检验,Two-Sample Tests,Population Means,
22、Independent Samples,Means,Related Samples,Population Variances,Mean 1 vs.independent Mean 2,Same population before vs.after treatment,Variance 1 vs.Variance 2,Examples:,Population Proportions,Proportion 1 vs.Proportion 2,双样本假设检验的种类,Population means,independent samples,1 and 2 known,*,Use a Z test st
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基本 统计 技术 应用
链接地址:https://www.31ppt.com/p-6560009.html