《应用统计复习》PPT课件.ppt

上传人：小飞机

文档编号：5505737

上传时间：2023-07-14

格式：PPT

页数：63

大小：297.10KB

《《应用统计复习》PPT课件.ppt》由会员分享，可在线阅读，更多相关《《应用统计复习》PPT课件.ppt（63页珍藏版）》请在三一办公上搜索。

1、第一章数据与统计学,统计学的产生和发展统计数据的来源统计数据的质量统计学的基本概念,统计调查的方式,统计调查（主要用来取得社会经济数据）,统计数据的质量,第二章统计数据的描述,数据的计量尺度统计数据的整理分布集中趋势的测度分布离散程度的测度分布偏态与峰度的测度统计表与统计图,第二章统计数据的描述,数据的计量尺度列名尺度(nominal scale)性别、民族顺序尺度(ordinal scale)产品等级、满意度间隔尺度(interval scale)百分制成绩、温度、年龄比例尺度(ratio scale)产量、产值、利润,品质标志,数量标志,第二章统计数据的描述,分布集中趋势的测度众

2、数中位数均值对分组数据进行计算的公式,常用函数,平均值 average(array)众数 mode(array)中位数 median(array)四分位数 quartile(array,n)n=01234几何平均数 geomean(array)切尾均值 trimmean(array,percent)偏态系数 skew(array)峰度系数 kurt(array)方差(样本）var(array)标准差（样本）stdev(array),第三章概率分布与抽样分布,概率分布常用抽样方法抽样分布中心极限定理的应用,正态分布,XN(、2)，其概率密度为：NORMDIST(X,0)正态分布随机变量的均值和

3、标准差均值 E(X)=方差 D(X)=2,-x,正态分布曲线的主要特性,关于x=对称的钟形曲线参数决定正态曲线的中心位置参数决定正态曲线的陡峭或扁平程度以X轴为渐近线，即当x 时，f(x)0,标准正态分布,0、1的正态分布，记为N(0,1)其概率密度(x)分布函数(x),NORMSDIST(Z)XN(、2),则：ZN(0，1)若 ZN(0，1)，则有：P（|Z|a）2(a)1(-a)=1(a),标准化,正态分布,正态分布,常用的抽样方法,抽样调查是一种常用的统计技术，其目的在于用样本统计量推断我们所关心的总体参数。,中心极限定理(central limit theorem),中心极限定理：

4、设从均值为，方差为 2的一个任意总体中抽取容量为n的样本，当n充分大时，样本均值的抽样分布近似服从均值为、方差为2/n的正态分布,样本均值抽样分布的特征,样本均值的数学期望样本均值的方差重复抽样不重复抽样,抽样平均误差抽样标准误差,样本比例（率）抽样分布的特征,当样本容量很大时，样本比例的抽样分布可用正态分布近似样本比例的数学期望样本比例的方差重复抽样不重复抽样,中心极限定理的应用,例3.33练习题3-23,第四章参数估计,基本原理一个总体均值的区间估计一个总体比率的区间估计,由样本统计量所构造的总体参数的区间估计，称为置信区间(confidence interval)，其中区间的最小值称

5、为置信下限，最大值称为置信上限。将构造置信区间的步骤重复多次，置信区间中包含总体参数真值的次数所占的比率称为置信水平(confidence level)，或称为置信系数(confidence coefficient)。一般将称为显著性水平，1-置信水平,置信区间示意图,一个总体均值的区间估计,总体均值m所在(1-a)置信水平下的置信区间为：,za/2是标准正态分布上侧面积为/2时的z值。,表5.3 常用置信水平的za/2值,99%,95%,0.05,置信水平,a,a/2,za/2,1.645,90%,0.10,0.05,0.01,0.025,1.96,0.005,2.58,允许误差,不同情况总

6、体均值的区间估计,总体分布,样本容量,s未知,大样本(n30),s已知,正态分布,小样本(n30),大样本(n30),非正态分布,一个总体比率的区间估计,样本比例置信区间的确定如在40000个家庭中抽取了400个家庭，样本中拥有家用计算机的家庭有72个，试估计总体拥有计算机比例的置信区间。怎么算？,第五章假设检验,基本原理一个总体均值的检验一个总体比率的检验,基本问题,假设的陈述“假设”(hypothesis)就是对总体参数的具体数值所作的陈述。假设检验(hypothesis test)也就是利用样本信息判断假设是否成立的过程。比如：一家食品生产企业以生产袋装食品为主，每天的产量为8000袋

7、左右。按规定每袋的重量应为100g。为对产品质量进行监测，企业质检部门经常要进行抽检，以分析每袋重量是否符合要求。,在假设检验中，首先需要提出两种假设，即原假设和备择假设。原假设(null hypothesis)通常是研究者想收集证据予以反对的假设，也称为零假设，用H0表示。备择假设(alternative hypothesis)通常是利用研究者想收集证据予以支持的假设，也称为研究假设，用H1和H表示。备择假设通常是用于支持你自己的看法。确定原假设和备择假设，在假设检验中十分重要，它直接关系到检验的结果。,在假设检验中，研究者感兴趣的备择假设的内容，可以是原假设H0在某一特定方向的变化，也可以

8、是一种没有特定方向的变化。如果备择假设具有特定的方向性，并含有符号“”或“”的假设检验，称为单侧检验或单尾检验(one-tailed test)。研究者感兴趣的备择假设没有特定的方向，只是关心备择假设H1是否不同于原假设H0，并不关心是大于还是小于，如果备择假设没有特定的方向性，并含有符号“”的假设检验，称为双侧检验或称双尾检验(two-tailed test)。,表5.1 假设检验的基本形式,两类错误与显著性水平,两类错误与显著性水平当原假设为真时拒绝原假设，所犯的错误为第I类错误(type I error)，又称为弃真错误。犯第I类错误的概率通常记为a。当原假设为假时没有拒绝原假设，所犯的

9、错误称为第II类错误(type II error)，又称为取伪错误。犯第II类错误的概率通常记为b。,假设检验的结论与后果,显著性水平、拒绝域和临界值,利用P值进行决策如果原假设H0为真，所得到的样本结果会像实际观测结果那么极端或更极端的概率，称为P值(P-value)，也称为观察到的显著性水平(observed significance level)。要测量出样本观测数据与原假设中假设的值m0的偏离程度，则需要计算P值。如果仅根据显著性水平来检验假设，所有的可靠性都是一样的。,显著性水平,如果事先确定了一个显著性水平a，也就意味着要求用于拒绝原假设H0的证据必须强到P值小于a的程度。如果P值

10、a，不拒绝H0传统的显著性水平，如1%、5%、10%等，已经被人们普遍接受为“拒绝原假设足够证据”的标准。P0.10代表有“一些证据”不利于原假设；P0.05代表有“适度证据”不利于原假设；P0.01代表有“很强证据”不利于原假设。,一个总体参数的检验,5.2.1 总体均值的检验在对总体均值进行假设检验时，采用什么检验步骤和检验统计量取决于所抽取的样本是大样本(n30)还是小样本(n30)，此外还需要区分总体是否服从正态分布、总体方差s2是否已知等几种情况。,例5.4,一种罐装饮料采用自动生产线生产，每罐的容量是255ml，标准差为5ml。为检验每罐容量是否符合要求，质检人员在某天生产的饮料中

11、随机抽取了40罐进行检验，测得每罐平均容量为255.8ml。取显著性水平a=0.05，检验该天生产的饮料容量是否符合标准要求。,解：这里所关心的焦点是饮料容量是否符合要求，也就是m是否为255ml。大于或小于255ml都不符合要求，因而属于双侧检验问题。提出的原假设和备择假设为：H0：m=255，H1：m255计算检验统计量的具体数值：检验统计量数值的含义是：样本均值与检验的总体均值相比，相差1.01个抽样标准差。,根据给定的显著性水平a=0.05，查书后所附的标准正态分布表得za/2=z0.025=1.96。由于|z|=1.01za/2=1.96，所以，不拒绝原假设。检验结果表明：样本提供的

12、证据还不足以推翻原假设，因此不能证明该天生产的饮料不符合标准要求。,方法一：计算临界值,方法二：计算P值,双侧检验，P=2*(1-0.843752345)=0.312495。由于P值=0.312495远远大于a=0.05，所以不能拒绝H0，得到的结论与前面相同。,NORMSDIST（1.01),P值的1/2,例5.6 单侧检验（右）,某一小麦品种的平均产量为5200/公顷。一家研究机构对小麦品种进行了改良以期提高产量。为检验改良后的新品种产量是否有显著提高，随机抽取了36个地块进行试种，得到的样本平均产量为5275/公顷，标准差为120/公顷。试检验改良后的新品种产量是否有显著提高。(a=0.

13、05),解：研究机构自然希望新品种产量能提高，因而想收集证据支持“产量有显著提高”的假设，也就是m是否大于5200。因此属于单侧检验问题，而且属于右侧检验。提出的假设如下：H0：m5200，H1：m5200计算检验统计量的具体数值：,根据给定的显著性水平a=0.05，查标准正态分布表得za=z0.05=1.645。由于z=3.75z0.05=1.645，所以拒绝原假设。检验结果表明：改良后的新品种产量有显著提高。计算P值为0.000088a=0.05，同样拒绝原假设。,表5.4 大样本情况下一个总体均值的检验方法,2.小样本的检验方法当总体方差s2已知的时候，即使是在小样本情况下，检验统计量仍

14、然服从标准正态分布。对于小样本，当总体方差s2未知的时候，需要用样本方差s2代替总体方差s2，检验统计量服从自由度为(n-1)的t分布。因此需要采用t分布来检验总体均值，通常称之为“t检验”。检验的统计量为：,表5.5 小样本情况下一个总体均值的检验方法,例5.7,一种汽车配件的平均长度要求为12cm，高于或低于该标准均被认为是不合格的。汽车生产企业在购进配件时，通常是经过招标，然后对中标的配件提供商提供的样品进行检验，以决定是否购进。现对一个配件提供商提供的10个样本进行了检验，结果如下：12.2 10.8 12.0 11.8 11.912.4 11.3 12.2 12.0 12.3假定该供

15、货商生产的配件长度服从正态分布，在0.05的显著性水平下，检验该供货商提供的配件是否符合要求？,解：依题意建立如下原假设与备择假设：H0：m=12，H1：m12根据样本数据计算得：由于n30为小样本，计算检验统计量：,根据自由度(n-1)=10-1=9，查t分布表得：ta/2(n-1)=t0.025(9)=2.262，TINV(0.05，9)由于|t|=0.7053t0.025(9)=2.26，所以不拒绝原假设，样本提供的证据还不足以推翻原假设。,计算临界值,计算P值,由于P值=0.4984697860.05，所以不拒绝原假设。,5.2.2 总体比率的检验总体比率检验的三种基本形式为：双侧检验

16、：H0：p=p0，H1：pp0左侧检验：H0：pp0，H1：pp0,在构造检验统计量时，仍然利用样本比率p与总体比率p之间的距离等于多少个标准差sp来衡量，因为在大样本情形下统计量p近似服从正态分布，而统计量,则近似服从标准正态分布。,表5.4 大样本情况下一个总体均值的检验方法,第六章方差分析,方差分析引论单因素方差分析,6.1.1 方差分析及其有关术语方差分析(analysis of variance)是检验多个总体均值是否相等的统计方法。它是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。表面上看，方差分析是检验多个总体的均值是否相同，但本质上它所研究的是

17、分类型自变量对数值型因变量的影响，例如，它们之间有没有关系，关系的密切程度如何，等等。,单因素方差分析中，涉及两个变量：一个是分类型自变量一个是数值型因变量当研究分类型自变量对数值型因变量的影响时，所用的方法就是方差分析。,行业,被投诉次数,影响?,方差分析，就是因为在判断均值之间是否有差异时需要借助于方差。它是通过对数据误差来源的分析来判断不同总体的均值是否相等，进而分析自变量对因变量是否有影响。需要考察数据误差的来源。随机误差在同一个总体下，样本的各观测值是不同的。它们之间的差异可以看成是随机因素的影响造成的，或者说是由于抽样的随机性所造成的。系统误差在不同总体下，各观测值也是不同的。这种

18、差异可能是由于抽样的随机性所造成的，也可能是由于行业本身造成的，后者所形成的误差是由系统性因素造成的。,6.1.3 方差分析中的基本假定三个基本的假定每个总体都应服从正态分布。也就是说，对于因素的每一个水平，其观测值是来自正态分布总体的简单随机样本。各个总体的方差s2必须相同。也就是说，对于各组观测数据，是从具有相同方差的正态总体中抽取的。观测值是独立的。,即SST=SSE+SSA,表6.4 方差分析表的一般形式,表6.5 表6.1中数据的方差分析表,根据给定的显著性水平a，在F分布表中查找与第一自由度df1=k-1、第二自由度df2=n-k相应的临界值Fa(k-1,n-k)。若FFa，则拒绝

19、原假设H0，即m1=m2=mi=mk不成立，表明mi(i=1，2，k)之间的差异是显著的。若FFa，则不拒绝原假设H0，没有数据表明mi(i=1，2，k)之间有显著差异，也就是说，还不能认为所检验的因素对观测值有显著影响。,第七章相关与回归分析,相关关系的概念相关系数一元线性回归回归系数的计算回归分析工具的应用回归系数的检验预测,第八章时间序列,时间序列的速度分析时间序列趋势变动分析移动平均长期趋势的模型法（与一元回归相同）,第九章统计指数,总指数的编制综合指数平均指数指数体系与因素分解,个体指数体系,销售额指数销售量指数销售价格指数,销售量变化的影响：,价格变化的影响：,两者的共同影响：,总指数体系的因素分析,当我们需要分析多个个体综合变动影响因素时需要采用综合指数形式。,销售量变动影响额,价格变动影响额,销售额变动绝对额,