商务统计学教学.ppt
商务统计学,前言,一、商务统计课程的性质二、商务统计学习的方法,一、商务统计课程的性质,1、商务统计是全面系统论述商务与经济统计活动全过程中所用统计理论与方法的综合性课程,在调查分析师证书系列课程中是具有提纲挈领作用的一门课程。2、商务统计课程的内容都是硕士研究生入学考试必考的内容,是任何一个统计人员和调查分析人员都必须掌握的统计学的核心知识。,二、商务统计学习的方法,1、商务统计是一门应用性统计学课程,在学习过程中应注重各种基本概念的含义和各种方法的基本原理与应用,要掌握每种方法的使用条件、计算步骤、以及结果的意义与解释。2、要在理解和领会中记忆和掌握课程的内容。如对于各种统计分布的复杂的密度函数公式就不需记忆,但却需要熟练掌握其概念定义以及分布函数表的使用方法。,第一章 绪论,一、统计学的性质二、统计学的作用三、统计学的基本概念四、统计指标体系的设计,一、统计学的性质,(一)统计活动的内容与阶段 对各种数据资料的搜集、整理、分析和推断的活动过程称为统计活动,一项完整的统计活动过程可分为统计资料的搜集整理和统计资料的分析推断两大阶段。(二)统计学的定义与分科 统计学就是关于数据资料的搜集、整理、分析和推断的科学。关于统计资料的搜集整理和分析推断的理论与方法构成了统计学的全部内容。(1)理论统计学与应用统计学(2)描述统计学与推断统计学,二、统计学的作用,(一)统计学在科学研究中的作用提出假说并判定假说的正确与否(二)统计学在生产中的作用通过试验分析找出最佳工艺,并对生产过程进行统计质量控制。(三)统计学在管理中的作用抽样调查了解社会与市场,为决策提供依据;并可建立各种社会与经济发展模型,定量地模拟社会与经济的运行,既可分析社会与经济的发展及其结构变化,又可进行政策效果的评价。,三、统计学的基本概念,(一)总体和个体 组成统计活动研究对象的全部事物的全体集合,就称为统计总体,简称总体或母体;而总体中的各个事物则称为个体,总体中个体的数量称为总体容量。1、自然物体总体与人为划定个体的总体;2、有限总体与无限总体;3、具体总体与设想总体(抽象总体)。,三、统计学的基本概念,(二)统计指标及其测度 用来测度统计活动研究对象某种特征数量的概念称为统计指标,简称指标。其中,测度总体特征数量的概念称为总体指标,而测度个体特征数量的概念则称为个体指标。指标的测度计量尺度有(1)定类尺度,(2)定序尺度,(3)定距尺度,(4)定比尺度。,三、统计学的基本概念,(三)样本和统计推断 1、样本从总体中随机抽出的部分个体所组成的集合称为样本或子样,样本中所含个体的数目称为样本容量。2、统计推断根据样本观测资料来对总体的分布状况和分布特征进行推断。3、样本数据的分类(1)横截面数据,(2)时间序列数据。,四、统计指标体系及其设计,(一)统计指标体系的定义 反映总体及其所含个体的各个方面特征数量的一系列相互联系、相互补充的统计指标所形成的体系,称为统计指标体系。(二)构建统计指标体系的意义,(三)指标体系中指标的分类,1、水平指标(1)存量指标与流量指标,(2)实物指标与价值指标。2、比率指标(1)比例相对指标,(2)比值相对指标,(3)动态相对指标,(4)弹性相对指标,(5)强度相对指标。,(四)指标体系设计的内容,1、确定统计指标体系的框架;2、确定每一个指标的内涵和外延;3、确定每个统计指标的计量单位;4、确定每个统计指标的计算方法。,(五)指标体系设计的原则,1、目的性原则2、科学性原则3、可行性原则4、联系性原则,第二章 数据采集与整理,一、数据采集的方式与程序二、现场调查三、试验观测四、数据的整理显示,一、数据采集的方式与程序,(一)数据采集根据统计指标体系的要求,对所研究总体中个体的相应指标进行观测记录取得数据的活动过程。(二)数据采集活动的基本要求采集到的数据资料要具有代表性和真实性。所谓代表性,是要求所观测到的样本必须对所研究总体具有代表性;而所谓真实性,则是要求所采集到的数据必须是真实的实际数据。(三)数据采集方式的分类现场调查和试验观测,一、数据采集的方式与程序,(四)数据采集的程序 1、制定数据采集方案包括(1)采集数据的目的,(2)采集总体和观测单位,(3)观测指标数值登记表,(4)采集方式和组织,(5)采集时间和期限。2、现场观测登记 3、数据整理显示,二、现场调查,(一)调查的取样方式 1、随机抽样调查(1)简单随机抽样,(2)系统抽样,(3)分层抽样,(4)整群抽样。2、非随机抽样调查(1)任意抽样,(2)立意抽样,(3)配额抽样。3、概率抽样和非概率抽样的特点比较,二、现场调查,(二)现场调查的观测方式 1、访问法(1)口头访问当面访问或电话访问(2)书面访问邮局或互联网邮件传递,以及登门送收 2、观察法,二、现场调查,(三)现场调查的问卷设计 1、提问方式(1)封闭型提问(2)开放型提问 2、提问次序,三、试验观测,(一)试验观测设计的原则 1、均衡分散性原则 2、整齐可比性原则(二)试验观测的方法 1、完全随机试验观测 2、随机区组试验观测 3、拉丁方试验观测 4、正交试验观测,四、数据整理与显示,(一)构建观测资料数据库的意义与方法(二)观测数据的分类显示 1、观测个体的分类(1)分类的功能与原则(2)分类的方法 2、统计表的编制(1)统计表的构成(2)统计表的编制规则内容安排科学合理,形式设计简练美观。,第三章 次数分布,一、次数分布的概念 二、次数分布表及其编制 三、次数分布图 四、次数分布的理论模型及其表示方法 五、离散变量概率分布模型 六、连续变量概率分布模型,一、次数分布的概念,(一)次数分布:观测变量的各个不同取值及其出现次数的顺序排列,称为变量的次数分布。(二)总体次数分布和样本次数分布(三)次数分布的作用观测变量的次数分布包含了观测变量取值的全部信息。根据观测变量的次数分布,可以对观测变量的各种分布特征进行描述和分析。,二、次数分布表及其编制,(一)次数分布表的种类 1、单值分组次数分布表 2、组距分组次数分布表(二)组距分组次数分布表的编制方法 1、确定组数 等距分组的斯特吉斯公式:m=1+3.322lgN 2、确定组距 等距分组的参考组距:3、确定组限 4、计数各组的次数 5、列出次数分布表,三、次数分布图,用线和面等形状来显示观测变量次数分布状况的几何图形,称为次数分布图。常用的次数分布图主要有柱状图、直方图和折线图等几种。,四、次数分布的理论模型,(一)理论分布模型的概念与意义 随机变量取某个数值或在某个区间取值是一个随机事件,使用概率理论计算的随机变量在各个数值上或在各个区间内取值的概率分布,就是随机变量的理论分布,计算此理论分布的概率理论模型就是其理论分布模型。在现实生活中,各种观测变量的概率分布都可以用某个理论概论分布模型去近似描述。因此就可据此理论分布模型进行分析推断。,四、次数分布的理论模型,(二)理论分布模型的表示方法 1、概率分布表 2、概率分布图 3、概率分布函数式,五、离散变量概率分布模型,记所考察的离散变量为x,假设该随机变量共可取m个不同的值,它取值为xi的概率为pi,并记随机事件x=xi的概率为P(x=xi),则离散随机变量的概率分布可表示为:P(x=xi)=pi;i=1,2,m.在统计分析推断中,常用的离散变量概率分布模型主要有两点分布、二项分布、超几何分布和泊松分布等几种。,(一)两点分布,假设总体中有两类共N个个体,其中取值为“是”的有N1个,取值为“非”的有N0个,则有:,(二)二项分布,假设在0-1分布总体中,取“是”值的个体比例为p,取“非”值的比例为q,现从中有放回地随机抽取n个个体,记X为取“是”值的个体数目,则其中恰有n1个个体取“是”值、且有n0=n-n1个个体取“非”值的概率为:,(三)超几何分布,假设0-1总体中共有N个个体,其中取“是”值的个体有N1个,取“非”值的个体有N0个。现从不放回地随机抽取n个个体,记x为取“是”值的个体数目,则其中恰有n1个个体取“是”值、且有n0=n-n1个个体取“非”值的概率为:,(四)泊松分布,泊松分布是稀有事件出现次数的理论分布模型,如自然灾害、意外事故、机器故障等事件出现的次数都近似地服从泊松分布。泊松分布概率模型为:,六、连续变量概率分布模型,连续型随机变量的取值范围可以是数轴上的某个区间,也可以是整个数轴。由于它可以取无穷多个不同的数值,所以描述其概率分布的最完善方法是概率函数式。在理论分析中,描述连续变量概率分布的最常用的概率函数式是概率分布密度函数。在统计分析推断中,常用的连续随机变量概率分布模型主要有均匀分布、正态分布、2分布、t分布和F分布等几种。,(一)均匀分布,若随机变量x在区间a,b 上服从均匀分布,则该随机变量的概率密度函数为:,(二)正态分布,若随机变量x服从正态分布,则其概率密度函数就为:,(三)2分布,若随机变量z1、z2、zn都服从标准正态分布N(0,1),且两两之间相互独立,则这些标准正态变量的平方和x就服从2分布,其概率密度函数为:,(四)t分布,若随机变量z N(0,1),x2(n),且二者相互独立,则:服从学生氏t分布,概率密度函数为:,(五)F分布,若随机变量xm2(m),xn2(n),旦二者相互独立,则:服从F分布,其概率密度函数为:,第四章 分布特征测度,一、分布中心二、离散程度三、偏度与峰度四、相关程度,一、分布中心测度的意义,(一)分布中心的概念所谓分布中心,就是指随机变量的一切取值的散布中心。(二)测度分布中心的意义 1、随机变量的分布中心是随机变量一切取值的一个代表,可以用来反映其数值的一般水平。2、随机变量的分布中心可以揭示随机变量一切取值的次数分布在直角坐标系内的集中位置,可以用来反映随机变量分布密度曲线的中心位置,即对称中心或尖峰位置。,二、分布中心测度指标,用来测度随机变量次数分布中心的指标可以有多种,其中在统计分析推断中常用的主要有算术平均数、中位数和众数等几种。,(一)算术平均数,1、定义算术平均数又称算术均值,是随机变量的所有观测值总和与观测值个数的比值。2、计算方法(1)简单算术平均数适用于未分组整理的各个单个观测数值,其计算公式为:,(一)算术平均数,(2)加权算术平均数适用于已分组整理的次数分布数据,其计算公式为:,(一)算术平均数,(3)算术平均数的变形调和平均数。对于由观测变量的各个分组和各组变量总值顺序排列所形成的分组数据。算术平均数的公式需变换成调和平均数的形式:,当各组的变量总值mi相等时,就可简化为:,(一)算术平均数,3、理论分布的算术平均数数学期望(1)定义 对于离散型随机变量,假设有n个不同的取值,其中取某个数值xi的概率为pi,则该随机变量的数学期望可用算术平均数公式定义为:,对于连续型随机变量,仍可用算术平均数定义其数学期望,不过因为连续变量求和要用定积分,所以定义中需要用定积分符号代替总和符号,即:,(一)算术平均数,3、理论分布的算术平均数数学期望(2)例子 例如,对于服从两点分布的随机变量x,其不同的取值只有1和0,其中取1的概率为p,取0的概率为q=1-p,则其数学期望为:,又如,对于服从位置参数为且尺度参数为2的正态分布的随机变量x,由其概率密度函数可计算出其数学期望就是其位置参数。标准正态分布随机变量的数学期望为0。,(一)算术平均数,(3)数学期望的性质 若c为常数,则必有:E(c)=c 若c为任意常数,x为随机变量,则必有:E(cx)=cE(x)若x1、x2、xm均为随机变量,则必有:E(x1+x2+xm)=E(x1)+E(x2)+E(xm)若x1、x2、xm均为随机变量,且相互独立,则:E(x1x2xm)=E(x1)E(x2)E(xm)若x是随机变量,则必有:E(x)E(x),(二)中位数,1、定义 中位数是在按观测变量值的大小顺序排列所形成的变量值数列中点位置上的变量值。对于观测变量x,假设共取得n个观测值,各个观测值按大小顺序排列为x(1)、x(2)、x(n),则其中位数可定义为:,(二)中位数,2、组距分组次数分布数据 的中位数计算,(三)众数,1、定义:众数是随机变量的观测值中出现次数或密度最大的变量观测值。2、组距分组次数分布数据计算众数,三、均值、中位数和众数三者之间的关系,对于对称分布,有:对于右偏分布,有:对于左偏分布,有:经验关系式:,四、离散程度测度的意义,(一)离散程度的概念所谓离散程度,即观测变量各个取值之间的差异程度。(二)离散程度测度的意义 1、通过对随机变量取值之间离散程度的测定,可以反映各个观测个体之间的差异大小,从而也就可以反映分布中心指标对各个观测变量值代表性的高低。2、通过对随机变量取值之间离散程度的测定,可以反映随机变量次数分布密度曲线的瘦俏或矮胖程度。,五、离散程度测度指标,可用来测度观测变量值之间差异程度的指标有很多,在统计分析推断中最常用的主要有极差、平均差和标准差等几种。,(一)极差,极差又称全距,是观测变量的最大取值与最小取值之间的离差,也就是观测变量的最大观测值与最小观测值之间的区间跨度。极差的计算公式为:R=Max(xi)-Min(xi),(二)平均差,平均差是随机变量各个取值偏差绝对值的算术平均数。由于所掌握数据形式的不同,平均差的计算有简单平均差和加权平均差两种不同的方式。,(三)标准差,标准差是随机变量各个取值偏差平方的平均数的算术平方根,是最常用的反映随机变量分布离散程度的指标。标准差既可以根据样本数据计算,也可以根据观测变量的理论分布计算,分别称为样本标准差和总体标准差。,1、样本标准差的计算,(1)对于未分组整理的各个观测变量值数据,计算标准差应采用简单平均的方法。,(2)对于已分组整理的分组次数分布数据,计算标准差应采用加权平均的方法。,2、理论分布的标准差与方差,(1)定义 标准差是最常用的理论分布模型正态分布的参数之一,在理论分析中最常用来描述随机变量分布的离散程度。标准差的平方称为方差,与标准差有着同样的作用。随机变量x的理论分布的方差常记为Var(x)或2,其定义为:2=Var(x)=Ex-E(x)2,2、理论分布的标准差与方差,(2)离散随机变量的方差 对于离散随机变量x,假设共有n个不同取值,取值xi的概率为pi,i=1、2、n,则方差为:例如,对于服从两点分布的随机变量x,其取值为1的概率为p,取值为0的概率为q=1-p,数学期望为E(x)=p,则其方差为:Var(x)=(1-p)2p+(0-p)2q=pq,2、理论分布的标准差与方差,(3)连续随机变量的方差 对于连续型随机变量x,假设其分布密度函数f(x),则其方差的计算公式为:例如,对于服从位置参数为且尺度参数为2的正态分布的随机变量x,其数学期望等于其位置参数,其方差就是其尺度参数2,标准正态分布的方差为1。,2、理论分布的标准差与方差,(4)方差的性质 任何随机变量的方差均非负。Var(x)0 若c为常数,x为随机变量,则有:Var(cx)=c2Var(x)若随机变量x1、x2、xm均相互独立,则有:Var(x1+x2+xm)=Var(x1)+Var(x2)+Var(xm)若x为随机变量,c为任一常数,则有:E(x-c)2=Ex-E(x)2+c-E(x)2 对于任意随机变量x,均有:Var(x)=E(x2)-E(x)2,(四)离散系数,1、离散系数的概念各个衡量随机变量取值之间绝对差异的指标与算术平均数的比率,通称为离散系数。2、计算离散系数的意义消除量纲和数量级的差异,便于不同观测变量之间的比较。,3、计算公式,六、测度偏度和峰度的意义,(一)概念所谓偏度,就是观测变量取值分布的非对称程度;所谓峰度,就是观测变量取值分布密度曲线顶部的平坦程度或尖峭程度。(二)意义 1、加深人们对观测变量取值的散布状况的认识;2、将观测变量的偏度和峰度指标值与某种理论分布的偏度和峰度指标值进行比较,以判断观测变量的分布与某种理论分布的近似程度。,七、偏度的测度,(一)直观偏度系数1、皮尔逊偏度系数 2、鲍莱偏度系数,七、偏度的测度,(二)矩偏度系数 1、矩的定义原点矩和中心矩 2、矩偏度系数,八、峰度的测度,矩峰度系数随机变量的四阶中心矩与其标准差的四次方相除,所得比率就称为峰度系数,其计算公式为:,九、相关程度测度的意义,(一)相关关系的概念 对于两个观测变量,若一个变量的取值除了受另一个变量取值的影响外,还受各种随机因素的影响,则变量间的这种非确定性关系就称为相关关系。(二)相关关系测度的意义 1、了解两个观测变量之间相关关系的方向;2、了解两个观测变量之间相互依赖关系的程度,为构建观测变量之间相互关系模型奠定基础。,十、相关程度测度的指标,对两随机变量之间的相关关系及其密切程度进行测度,需要根据两变量观测值的复合分组次数分布进行,或在理论上根据两变量的联合概率分布模型进行。测度观测变量之间相关关系的指标主要有协方差和相关系数两个。,(一)协方差,1、定义协方差是两个随机变量成对观测值偏差乘积的算术平均数。2、样本协方差,(一)协方差,3、总体协方差对于两随机变量的理论分布,也可类似地定义其协方差。两随机变量x和y的理论分布的协方差常记作Cov(x,y)或xy,其定义公式为:xy=Cov(x,y)=Ex-E(x)y-E(y)例如,对于联合分布为二元正态分布的随机变量x和y,可得二变量的协方差为:,(一)协方差,4、协方差的性质 随机变量x与y的协方差和y与x的协方差相等。Cov(x,y)=Cov(y,x)若随机变量x和y相互独立,则有:Cov(x,y)=0 若1和2为任意常数,则有:Cov(1x,2y)=12Cov(x,y)对于任意三个随机变量,均有:Cov(x1+x2,y)=Cov(x1,y)+Cov(x2,y)Cov(x,y1+y2)=Cov(x,y1)+Cov(x,y2)对于任意两随机变量,均有:Cov(x,y)=E(xy)-E(x)E(y),(二)相关系数,1、定义相关系数是两个随机变量的协方差对其两标准差之积的比率。2、总体相关系数3、样本相关系数,(二)相关系数,4、相关系数的取值范围相关系数r的数值介于-1和+1之间,其绝对值介于0和1之间。即有:-1r+15、相关系数的作用(1)相关系数的符号可反映两随机变量相互依存关系的方向。相关系数为正,称为正相关;相关系数为负,称为负相关。(2)相关系数的绝对值的大小则可反映两随机变量线性相关关系的密切程度。,第五章 参数估计,一、总体参数及其估计量二、构造估计量的方法矩法估计三、判断估计量优劣的标准四、估计量的标准误五、抽样分布的概念六、基本的抽样分布七、区间估计的概念 八、区间估计的方法九、样本容量的确定,一、总体参数及其估计量,总体指标又称为总体参数,根据样本数据来推断总体指标数值就称为参数估计。集中了样本中有关总体参数信息的样本指标称为统计量,该统计量就可用来估计所求的总体指标的数值。用来估计总体指标数值的统计量又称为该总体指标的估计量,该估计量的数值就称为该总体指标的估计值。总体参数值是确定的,但是未知的;样本估计量是随机变量,其估计值是某个给定样本的计算值。,二、构造估计量的方法矩法估计,(一)矩法估计的概念所谓矩法估计,概括来说就是用样本矩作为总体同一矩的估计量,用样本矩的函数作为总体相应矩同一函数的估计量。(二)常用的总体参数及其矩法估计量,三、判断估计量优劣的标准,为了保证用于估计总体指标的估计量准确可靠,就必须要求所使用的估计量具备一些优良的性质,这些性质就构成了判断一个估计量优劣的标准。常用的标准主要有一致性、无偏性、有效性、充分性和稳健性等。,(一)一致性,对于总体指标的一个估计量,若其取值随着样本容量的增大越来越接近于总体指标的真值,即估计误差越来越小的可能性越来越大直至100%,则该估计量就称为总体指标的一致估计量,或称为相合估计量。可以证明,由矩估计法所构造出的估计量都是所估计总体指标的一致估计量。如样本均值是总体均值的一致估计量,样本比例p是总体比例P的一致估计量,样本方差s2也是总体方差2的一致估计量。,(二)无偏性,对于总体指标的一个估计量,若其估计值的数学期望等于该总体指标的真值,即其估计误差的数学期望为0,则该估计量就称为是总体指标的无偏估计量。可以证明,样本均值是总体均值的无偏估计量,而常规样本方差却并不是总体方差2的无偏估计量,修正样本方差s2是总体方差2的无偏估计量。修正样本方差即无偏样本方差为:,(三)有效性,对于任一总体指标,若存在两个无偏估计量,其中一个估计量的估计误差平均来说小于另一个估计量的估计误差,则称前一个估计量比后一个估计量有效。无偏估计量的估计误差大小可用其方差衡量,所以两个无偏估计量比较,方差较小者较为有效。对于一个总体指标来说,若在其所有无偏估计量中能够找到一个估计量,其方差最小,则该估计量就称为是该总体指标的最佳无偏估计量。可以证明,样本均值是总体均值的最佳无偏估计量。对于有偏估计量,衡量其有效性可用均方误差代替方差。估计量的均方误差为:,(四)充分性,对于一个总体指标,若其估计量提取了样本中包含的有关该总体指标的全部信息,则此估计量就称为该总体指标的充分估计量。在多数情形下,矩法估计给出的总体指标的估计量均是充分的。如在正态分布总体之下,样本均值是总体均值的充分估计量,样本方差s2也是总体方差2的充分估计量。,(五)稳健性,如果用来估计总体指标的样本估计量对样本数据的污染不敏感,也就是说估计量的数值不受被污染数据的干扰或受其干扰不大,那么该估计量就是总体指标的一个稳健估计量。实践中常用的一种估计总体均值的稳健估计量是切尾均值,切尾均值的计算公式为:,四、估计量的标准误,(一)标准误的概念 样本估计量的标准差通常称为该估计量的标准误差,简称标准误。即:标准误是衡量一个估计量抽样估计误差大小的一个尺度。,(二)标准误的计算,1、样本均值的标准误(1)放回抽样(2)不放回抽样,(二)标准误的计算,2、样本比例的标准误(1)放回抽样(2)不放回抽样,(三)影响标准误的因素,1、总体中各个体之间的差异程度。总体中各个体取值之间的差异程度大即2也大,各总体指标估计量的标准误的数值也就大,抽样估计误差也就大。2、样本容量的大小。样本容量大,总体指标估计量的标准误则小,抽样估计误差也就越小;反之,样本容量越小,抽样估计误差及其标准误也就越大。3、抽取样本的方式方法。抽样方式方法不同,总体指标估计量的标准误就会不同,抽样估计误差的大小也就不同。,五、抽样分布的概念,对于给定的总体和抽样方式以及样本容量,样本指标取值的概率分布就称为抽样分布。确定样本容量下的抽样分布称为样本统计量的精确分布,而样本容量趋于无穷大时的抽样分布则称为样本统计量的极限分布。,六、基本的抽样分布,(一)样本均值的抽样分布1、任意总体大样本2、正态总体小样本,六、基本的抽样分布,(二)样本比例的抽样分布大样本,六、基本的抽样分布,(三)样本方差的抽样分布正态总体,七、区间估计的概念,记总体指标为,样本估计量为,事先给定概率为1-,若根据样本估计量的概率分布可计算出一个区间,使得该区间包含总体参数的概率等于事先给定的概率1-,即有:成立,则该区间 就称为总体参数的置信区间,而概率1-就称为是置信概率或置信度。,八、区间估计的方法,(一)均值的区间估计 1、大样本下均值的区间估计由中心极限定理可知,对于大样本而言,样本均值的概率分布总可近似地看作是正态分布。若事先给定置信概率为1-,则查标准正态分布概率数值表,可得标准正态分布的上侧分位数z/2,就可得出总体均值的置信区间为:,(一)均值的区间估计,2、小样本下正态总体均值的区间估计对于来自正态总体的一个小样本,在给定的置信概率1-之下,查自由度为(n-1)的t分布表,可得t分布的上侧分位数t/2,可得总体均值的置信区间为:,(二)比例的区间估计,总体比例是两点分布总体的均值,其估计量样本比例则是来自该总体的随机样本的均值。因此,在大样本条件下,可根据中心极限定理用类似于大样本情形下总体均值区间估计的方法来对总体比例进行区间估计。有:,(三)方差的区间估计,由抽样分布理论可知,对于来自正态总体的一个简单随机样本,其修正样本方差s2与总体方差2比值的(n-1)倍服从自由度为(n-1)的2分布。若给定置信概率1-,查自由度为(n-1)的2分布表可得两个分位数1-/2和/2,则可得正态总体方差2的置信区间为:,(四)单侧置信区间,所谓单侧置信区间,是将待估总体指标的上置信限或下置信限指定在其上界或下界值上,并根据给定的置信概率求出另一置信限而得到的置信区间。记待估计总体指标为,其取值上界为,取值下界为,样本估计量为,对于给定的置信概率1-,若有:或者,有:则称区间 和 为总体指标的单侧置信区间。,九、样本容量的确定,若在给定1-的置信概率之下,要求用样本均值估计总体均值的抽样估计误差不超过,则由总体均值的抽样估计误差限的计算公式,可计算出必需最小样本容量。(一)放回抽样(二)不放回抽样,第六章 假设检验,一、假设检验的原理二、总体指标假设检验三、分布假设检验四、假设检验的两类错误及功效,一、假设检验的原理,(一)统计假设和检验统计量所谓统计假设,就是关于总体分布特征的某种论断。关于总体参数假设的检验,是假设检验的核心内容。记总体参数为,若要判断是否等于某已知数值0,则该参数假设可表示为:H0:=0,H1:0其中,假设H0:=0就是所要检验的假设,称为原假设或零假设;而假设H1:0则称为对立假设或备择假设。要检验某个假设是否正确,需根据样本所提供的信息来进行。包含总体分布特征的全部样本信息的样本指标,是进行假设检验的依据,称为检验统计量。,(二)显著性水平和拒绝域,进行假设检验,概率论中关于小概率事件在一次试验中是不可能事件的原则是其所遵循的基本原则。通常取小概率事件的概率临界值为0.05或0.01,用表示,称为假设检验的显著性水平。在原假设成立的条件下,由检验统计量的概率分布,对于给定的显著性水平,就可确定出由抽样误差引起的样本估计值对总体参数原假设值的可能的最大偏离值,作为判断原假设正确与否的临界值。样本估计量偏离总体参数原假设值过大的区域,就是否定原假设的区域,称为否定域或拒绝域,而否定域以外的区域则称为接受域。,(二)显著性水平和拒绝域,1、双侧检验若要检验的假设为:H0:=0,H1:0 则否定域应建立在与原假设值的正负偏离超出给定临界值的两边,这种检验方法称为双侧检验。,(二)显著性水平和拒绝域,2、左侧检验若要检验的假设为:H0:0,H1:0 则否定域应建立在与原假设值的负偏离超出给定临界值的一边,这种检验方法称为左侧检验。,(二)显著性水平和拒绝域,3、右侧检验若要检验的假设为:H0:0,H1:0 则否定域应建立在与原假设值的正偏离超出给定临界值的一边,这种检验方法称为右侧检验。,(三)假设检验的p值,检验统计量的取值落在其实际样本值之外的概率,就称为假设检验的p值。,(四)假设检验的程序,(1)提出原假设H0和备择假设H1;(2)规定检验的显著性水平;(3)构造用于检验的样本指标,即检验统计量;(4)在原假设为真的假定下,根据检验统计量的概率分布,确定出检验统计量的临界值,并由此临界值构造出检验的拒绝域和接受域;或者计算出假设检验的p值;(5)比较检验统计量的实际样本值与其临界值,或者比较检验的p值与显著性水平,并根据比较的结果做出拒绝或不能拒绝原假设的决策。,二、总体指标假设检验,(一)均值的检验 1、单一总体均值的检验 H0:=0,H1:0或0或0(1)大样本情形正态分布z检验(2)小样本情形(正态总体)t检验,(一)均值的检验,2、两总体均值的比较 H0:1=2,H1:12或12或12(1)大样本情形正态分布z检验(2)小样本情形(正态总体)t检验 其中s2为用自由度加权的两样本方差的平均数。,(二)比例的检验,1、单一总体比例的检验 大样本(1)假设 H0:P=P0,H1:PP0 或PP0 或PP0(2)检验统计量正态分布z检验,(二)比例的检验,2、两总体比例的比较(1)假设 H0:P1=P2,H1:P1P2 或P1P2 或P1P2(2)检验统计量正态分布z检验 其中p为两样本比例的加权平均数:,(三)方差的检验,1、单一总体方差的检验(正态总体)(1)假设 或 或(2)检验统计量2检验,(三)方差的检验,2、两总体方差的比较(正态总体)(1)假设 或 或(2)检验统计量F检验,(四)相关系数的检验,1、假设H0:=0,H1:02、检验统计量t检验,三、分布假设检验,(一)拟合适度检验 1、拟合适度检验的概念 检验所考察总体是否服从某种特定的分布,称为拟合适度检验。2、拟合适度检验的假设 H0:总体服从某分布,H1:总体不服从某分布 3、检验方法2 检验,(二)列联表检验,1、检验的假设 H0:变量A和B独立,H1:变量A和B不独立 2、检验方法2 检验,四、假设检验的两类错误与功效,(一)两类错误的概念,(二)两类错误的概率,第一类错误的概率,第二类错误的概率,(三)假设检验的功效,1、功效的概念备择假设正确并接受了它的概率为(1-),此概率就称为假设检验的功效。2、功效曲线,(四)必要样本容量的确定,1、两类错误发生概率的关系 假设检验中犯第二类错误的概率与犯第一类错误的概率成反方向关系,如果既要提高检验的功效而又不想使犯第一类错误的风险增大,那么只能是增加样本容量。2、必要样本容量的确定 对于总体均值假设H0:=0,H1:=10,使用z检验法,可得:,第七章 方差分析,一、方差分析的概念 二、方差分析的意义 三、单因子数据结构模型 四、模型参数的估计 五、单因子方差分析表 六、各水平效应的多重比较 七、随机区组试验与多因素方差分析的特点,一、方差分析的概念,在科学实验和生产经营活动中,人们常常需要对影响所观测变量的各种主要因素进行分析,以便找出各个因素在什么状态下可使所观测的变量取得最佳数值。为此,首先需要在各种主要影响因素的不同状态下对所研究变量的取值进行观测,然后再对观测所得数据进行比较分析。方差分析就是分析推断各种因素状态对所观测变量的影响效应的一种统计分析方法。,二、方差分析的意义,首先,需要确定的是一个因子的各个水平的作用是否相同。如果相同,说明这个因子不管取哪种水平对观测变量无不同影响,那么这个因子实际上无关紧要,可纳入平均效应中去,这时称这个因子是不显著的。自然,如果一个因子的各个水平的作用不同,那么这时就称此因子是显著的。其次,如果所考察的因子是显著的,那么就要找出该因子的最佳水平或者各个显著因子的各种水平的最佳配合,以指导生产经营的实践活动。,三、单因子数据结构模型,假设所考察的因子为A,有m个不同的水平A1,A2,Am。在各个水平下分别进行了n1,n2,nm次独立实验观测,得到变量观测值为yij,i1,2,m,j1,2,ni,则有数据结构模型为:yij=+i+ij;i1,2,m;j1,2,ni.或者写为:yij=i+ij;i1,2,m;j1,2,ni.其中为平均效应,i为因子A的第i个水平Ai对观测变量的作用,称为水平Ai的效应,i=+i为在水平Ai下观测变量的总体平均值,ij仍表示实验观测的随机误差。,四、模型参数的估计,(一)总均值和组均值(二)模型参数的矩估计,五、单因子方差分析表,(一)检验的假设 H0:12m=0 H1:至少i0 或 H0:12m H1:至少ik(二)总变动平方和的分解 SSTSSASSE 即:,五、单因子方差分析表,(三)方差分析表的构造(四)检验方法F检验(单侧),六、各水平效应的多重比较,(一)检验假设 H0:ik H1:ik或 H0:ik H1:ik(二)检验方法t检验(双侧),七、多因子方差分析的特点,一、随机区组试验的特点及其数据分析 试验单位之间存在较大的差异二、多因子方差分析的特点 不同因子的水平组合可能存在交互作用,第八章 回归分析,一、回归的概念与回归模型的确定 二、样本观测模型和样本回归函数 三、一元线性回归分析 四、多元线性回归分析 五、回归诊断,一、回归的概念与模型确定,设随机变量y与变量x1、x2、xk之间存在相关关系,则y与x1、x2、xk的数学模型可表示为:yf(x1,x2,xk)u 其中u为随机因素影响,若自变量x1、x2、xk的值给定时,随机影响u的期望为0,则因变量y的条件数学期望就是唯一确定的,即有:E(y/x)f(x1、x2、xk)此条件期望就称为y的回归值,表示y的回归值与自变量关系的函数式就称为y的回归函数。若自变量只有一个,则称为一元回归函数;若自变量有两个或多个,则称为多元回归函数。,一、回归的概念与模型确定,回归模型的确定方法有二:(一)定性分析(二)线性近似实践中,常用的回归函数为线性函数,相应的数学模型的形式为:y01x12x2kxku 其中0、1、2、k统称为回归系数,因变量y对自变量x1、x2、xk的回归函数为:E(y/x)01x12x2kxk,二、样本观测模型和样本回归函数,设样本观测值为(yj,x1j,x2j,xkj),j1,2,n,则对于线性模型来说,有:yj01x1j2x2jkxkjuj,j1,n.这n个关系式称为因变量y的观测模型。由此观测模型可估计得出模型中各个参数的估计值,从而得出样本回归函数为:,三、一元线性回归分析,(一)散点图 设样本观测值分别为(x1 y1)、(x2,y2)、(xn,yn),在平面直角坐标系内将这n对观测值用n个点表示出来,所形成的图形称为散点图。通过观察散点图的形状,可辅助判断回归函数的具体形式。一元线性回归模型的形式为:y01xu,(二)模型参数的最小二乘估计,1、最小二乘估计的原理 所谓最小二乘估计,就是寻找使样本观测模型的随机误差平方和最小的参数值作为回归模型参数的估计值。2、求一元线性回归模型系数的正规方程组,(二)模型参数的最小二乘估计,3、回归系数的最小二乘估计公式 4、样本回归方程,(二)模型参数的最小二乘估计,5、残差与残差平方和的计算 6、回归模型随机误差的方差的估计,(三)回归的方差分析,1、因变量总变动平方和的分解即:SST=SSR+SSE 2、判定系数,(三)回归的方差分析,3、一元线性回归的方差分析表 4、检验假设 H0:=0,H1:0 5、检验方法F检验,(四)回归系数的t检验,1、检验的假设 H0:1=0,H1:10 H0:0=0,H1:00 2、检验的方法t检验,(五)利用回归直线进行预测,所谓预测就是在给定自变量x的数值的条件下,估计因变量y的数值,有点预测和区间预测两种。1、点预测 2、区间预测,(六)一元线性回归模型的推广,实践中,有时用线性模型来描述变量x和y之间的关系并不恰当,这时就需要考虑各种曲线模型。对于有些曲线模型来说,容易将它们化成下面的形式:g(y)=0+1h(x)+u若仍假定随机误差u服从正态分布即uN(0,2),则y对x的曲线回归问题就可化为函数g(y)对函数h(x)的直线回归问题,从而就可用一元线性回归的方法来处理,这实际上是一元线性回归模型和方法的推广。,四、多元线性回归分析,(一)多元线性回归模型的设定(二)模型参数的最小二乘估计(三)多元线性回归模型的假设检验(四)偏相关系数和复相关系数(五)利用多元线性回归模型进行预测(六)多元线性回归模型的推广,五、线性回归诊断,(一)回归诊断的内容 1、线性回归分析的基本假定对于线性回归模型,通常假定随机误差uj满足下列假定:(1)数学期望为0,即E(uj)0;(2)具有同一方差2,即Var(uj)2;(3)相互独立,即Cov(ui,uj)0;(4)服从正态分布,即ujN(0,2)。2、回归诊断的内容所谓回归诊断,主要就是诊断样本观测数据是否满足回归分析的基本假定,以及样本观测数据中是否存在不同于绝大部分数据的异常数据,等等。,(二)回归诊断的方法,1、残差图 进行回归诊断,通常可用残差图进行。所谓残差图就是以因变量的观测值yj或自变量值x1j、x2j、xkj或因变量回归值等为横坐标,且以残差或其标准化数值为纵坐标所作出的散点图。,(二)回归诊断的方法,2、异方差与