《统计学》ppt课件完整 袁卫 贾俊平.ppt
统 计 学,第一章 统计和统计数据的收集第二章 统计数据的整理和展示第三章 数据的描述性分析 第四章 概率基础第五章 区间估计和假设检验第六章 相关与回归分析第七章 非参数统计第八章 时间数列分析第九章 指数,结束,第一章 统计和统计数据的收集,一、什么是统计 二、数据 三、搜集数据的组织方式 四、有关数据调查的几个问题,主要内容,目录,一、什么是统计 ?,(一)统计包含三种涵义,两重关系,1. 统计工作:对统计数据进行搜集、整理和分析的过程 。,2. 统计数据:统计工作所产生的成果,用以描述我们所研究现象的属性和特征 。如统计图表,统计分析报告等。,3. 统计学:一门研究总体数量特征的方法论科学。,统计工作统计资料统 计 学,工作与工作成果关系,实践与理论关系,(二)四个重要的术语,所研究的具有某些相同性质的全部单位或事件的整体。,总体,无限总体:含无限多个单位。,范围,有限总体:含有限个单位。,样本: 亦可称为抽样总体,是从总体中抽取部分单位所组成的整体,用以分析总体。,参数: 亦可称为总体指标,是综合测量的整个总体的某个数量特征。,统计量:亦可称为样本指标,是根据样本数据计算的综合测量值,可用以反映或估计、推断总体的某个数量特征。,(三)统计学的内容,1. 描述统计,关于搜集、展示一批数据,并反映这批数据特征的各种方法,其目的是为了正确地反映总体的数量特点。,2. 推断统计,根据样本统计量估计和推断总体参数的技术和方法。,描述统计是推断统计的前提,推断统计是描述统计的发展。,二、数据,(一) 为何需要数据 ?,统计学要研究各种随机变量,通过对这些随机变量的观察所获取的数据包含了我们所需的信息,这些信息能有助于我们在许多场合中做出更为正确的决策。例如:,市场研究者需要对产品的特性进行评估,以区分不同的产品。,药品制造厂商需要判别一种新药是否比现在正使用着的药更有效。,审计人员想通过查看某家公司的财务报表,以确认这家公司是否是依据了通行的会计准则做报表。,财务金融分析人员想判断在未来的五年中,哪些行业中的哪些公司最具有成长性。,经济学家想估计我国国内生产总值今年的增长速度。,生产部门的经理按惯例要检查生产过程,以检验其生产的产品质量是否符合公司的标准。,(二)数据分类的原则,互斥原则:每一个数据只能划归到某一类型中,而不能既是这一类,又是那一类 。,穷尽原则:所有被观察的数据都可被归属到适当的类型中,没有一个数据无从归属。,(三)数据的类型,1. 定性数据和定量数据,定性数据:用文字描述的 。如在本章的“统计引例”中消费者对永美所提供服务的总体评价等都属于文字描述的定性数据。,定量数据:用数字描述的。如企业的净资产额、净利润额等。,2. 离散型数据和连续型数据,变量,若我们所研究现象的属性和特征的具体表现在不同时间、不同空间或不同单位之间可取不同的数值,则可称这种数据为变量。,类型,离散型变量:数据只能取整数。如一家公司的职工人数。,连续型变量的数据可以取介于两个数值之间的任意数值。如销售额、经济增长率等。,3. 数据的四个等级,定类数据,例如,对人口按性别划分为男性和女性两类。,也称定名数据,这种数据只对事物的某 种属性和类别进行具体的定性描述。,能够进行的唯一运算是计数,即计算每一个类型的频数或频率(即比重)。,定类数据,例如,对企业按经营管理的水平和取得的效益划分为一级企业、二级企业等。,定序数据,也称序列数据,是对事物所具有的属性顺序进行描述。,定距数据,如10、20等。它不仅有明确的高低之分,而且可以计算差距,如20比10高10,比5高15等。,也称间距数据,是比定序数据的描述功能更好一些的定量数据。,定距测定的量可以进行加或减的运算,但却不能进行乘或除的运算。,定比数据,如产量、产值、固定资产投资额、居民货币收入和支出、银行存款余额等。,也称比率数据,是比定距数据更高一级的定量数据。它不仅可以进行加减运算,而且还可以作乘除运算。,测定层次,特征,运算功能,举例,1. 定类测定2. 定序测定3. 定距测定4. 定比测定,分类分类;排序分类;排序;有基本测量单位分类;排序;有基本测量单位;有绝对零点,计数计数;排序计数;排序;加减计数;排序;加减乘除,产业分类企业等级温度商品销售额,统计数据四个层次的概括,4. 截面数据和时间序列数据,截面数据:所搜集的不同单位在同一时间的数据。例如,所有上市公司公布的2004年年度的净利润。,时间序列数据:所搜集的同一总体或单位在不同时间的数据。某公司公布的1993年到2004年的年度净利润就是时间序列数据。,5. 原始数据和次级数据,原始数据:指直接从各个调查单位搜集的、尚未经过整理的统计数据资料,也称一手数据。,次级数据:指那些已经加工整理过的,往往是公开发表的数据,也称二手数据。 如从报纸杂志、统计年鉴、会计报表上取得的数据 。,(四)数据的来源,1. 从政府机构、各种行业组织、公司和企业所公布的数据中获取。就是把政府机构、各种组织和公司所公布的数据作为来源,这种数据往往是次级数据。,2. 设计一次试验以获取必要的数据。例如,在检验洗衣机洗净程度的研究中,研究人员通过实际洗涤脏衣服,来研究哪种牌子的洗衣机效果最佳。,3.从观察研究中获取。研究人员通常是在自然状态下,进行直接的观察。 例如,观察路口的交通流量、观察顾客在商场的购买行为和观察流水线上的产品质量等。,4. 进行一次调查。它对所调查人们的行为不进行任何控制,仅提出诸如出生年月、爱好、消费习惯、对某一事件的看法和其他特征方面的问题,然后对他们回答的结果进行整理、编码、列表和分析。,调查方案的主要内容,确定调查目的,确定调查对象和调查单位,拟订调查提纲,确定调查时间,编制调查的组织计划,三、数据搜集的组织方式,(一)普查、抽样、统计报表制度和重点调查,1.普查,特点:,工作量大,时间性强,需要大量人力和财力。,任务:,搜集重要的国情国力和资源状况的全面资料,为政府制定规划、方针政策提供依据。,方式:,建立专门机构,配备专门人员调查。,利用基层单位原始记录和核算资料进行调查。,原则:,规定统一的标准时点。,规定统一的普查期限。,规定统一的调查的项目和指标。,2.抽样调查,特点:,1.按随机原则从总体中抽取样本;,2.以样本指标(统计量)为依据推断总体参数 或检验总体的某种假设;,3.抽样误差可以事先计算并加以控制。,3.统计报表制度,是按一定的表式和要求,自上而下统一布置,自下而上提供统计资料的一种统计调查方法。,这种搜集统计数据方法是伴随着计划经济而产生的,并曾在我国占主导地位。现在,在社会主义市场经济条件下,仍是我国搜集统计数据的组织方式之一。,4.重点调查,特点:,在总体中选择个别或部分重点单位进行调查。,任务:,及时了解总体基本情况,为主管部门指导工作服务。,方式:,重点单位指在总体中有举足轻重地位的单位,其标志值在总体标志总量中占有绝大比重。,经常性调查;同报表制度结合,用统计报表调查。,例如,要了解全国钢铁生产的基本情况,只要调查鞍钢、宝钢、首钢、武钢、包钢等十几家特大型的钢铁企业就可以掌握全国钢铁企业生产的基本情况 。,(二)抽样的优点,1.适用的范围广。对于有限总体,从理论上讲,既可以进行普查也可以进行抽样;对于无限总体,就只能进行抽样。若理论上可以而实际上很难采用全面普查的情况,也只能采用抽样。如产品质量的破坏性检验、居民住户调查等。,2.与全面普查相比,抽样最大的优点是节省人、财、物力和时间。,3.随机抽样可以比普查更为精确。,(三)抽样的类型,非随机抽样,随机抽样,判断抽样,定额抽样,方便抽样,简单随机抽样,抽样类型,系统抽样,分层抽样,整群抽样,非随机抽样,又称为非概率抽样 ,是不按照随机原则来抽取样本中的单位或个体。,特点,具有方便、快速和低成本,精确性差,结论缺乏普遍性,判断抽样,又称为典型调查,是从事有关工作的专家按照一定的标准有意识地在总体中选择若干有代表性的单位组成样本进行调查,代表单位的选取标准应根据统计研究的目的而定。,定额抽样,是根据已定的单位数抽取样本,往往是对总体了解甚少的时采用。如想获取某地区化妆品的销售情况,对该地区的5家商厦进行调查。,方便抽样,是为了取样方便,随意地抽取样本单位。街头偶遇式调查就是一种最为常见的方便抽样。,随机抽样,是根据随机原则来抽取样本单位 .,简单随机抽样,方法:在抽样框中的每个单位都具有相同的被抽中的机会,每个容量相同的样本被抽中的机会也是相同的。,亦称为纯随机抽样,抽取样本的方法:有放回抽样和无放回抽样。,适合:总体内部差异不是很大,规模也不大的情况 。,系统抽样,方法:抽样框中的N个单位被分成k个系统,k等于抽样框的容量N除以所需的样本容量n,在抽样框中前面的k个个体或单位中随机抽出第一个样本单位,然后,可在其后的每隔k个单位抽取样本中其余的部分。,亦可称为等距抽样,编号有两种方法:,一种是利用原有的顺序或编号 。如学生的注册名单,或者是从生产流水线上下来的、有编号的产品等。,对所研究的总体已有所了解,则可用已知的相关变量对抽样框中的单位进行编号。,分层抽样,亦可称为类型抽样,方法:将总体全部单位分类,形成若干个类型组,后从各类型中分别抽取样本单位,合成样本。,总体N,样本n,等额,等比例,最优,整群抽样,方法:首先把总体中的N个单位划分成为若干个群,并要求每个群对整个总体都具有代表性,然后对群进行简单随机抽样,并对抽中群内的所有单位进行调查研究。,总体群数R=16 样本群数r=4 样本容量,A,B,C,D,E,F,G,H,I,J,K,L,M,N,O,P,L,H,P,D,适合:比简单随机抽样的方法能节约更多的成本,特别当总体的分布地域非常辽阔 时。,四、有关数据调查的几个问题,调查的目的,判断调查误差的大小,调查误 差,登记性误差:,代表性误差,系统性的代表性误差,登记、汇总、过录时产生的误差,以及无回答误差和测量误差等,偶然性的代表性误差即为抽样误差,调查中的道德性问题,1.调查者别有用意地、有意识地选择导向性的问题,使回答者出现有倾向性的回答。,2.询问者有意识地通过语气、语调引导被询问者出现有倾向性的回答。,3.回答者不重视或不愿意回答调查的内容,就很可能提供错误的信息。,第二章 统计数据的整理和展示,统计数据的整理,目录,统计数据的展示,排序,统计分组,频数分布编制,统计表,统计图,一、 统计数据的整理,排序,统计搜集到的大量资料是分散的,不系统的,只能说明各个单位的特征和属性,必须按照科学的原则加以整理,使之条理化和系统化,成为便于储存和传递的、反映总体特征的数据。,就是把定量数据按从大到小或从小到大的顺序排列,把定性数据按习惯的文字顺序排列,便于我们研究其条理。,统计分组,对于定性数据就是依据属性的不同将数据划分成若干组,对于定量数据就是依据属性数值的不同将数据划分成若干组。,组内同质性,组间差异性。,频数分布编制,分组的关键,变量的选择,选择与研究的问题有关的 变量 。,组限的确定。应遵循穷尽和互斥原则 。,定性数列编制:,组限的确定一般比较简单 。,如人口按性别分组、企业按所有制分组等,定量变量编制:,分为单项数列和组距数列两种形式。,单项数列:即变量的一个取值为一组,适用于离散型变量,并且变量的取值较少。,组距数列:即每一组有一个上限值和一个下限值所形成的区间,适用于连续性变量,或离散型变量且变量的取值较多的情况。,注意以下三个方面的问题,1.确定组数,2.确定组距:组距为上限与下限之差。等距数列数据分布均匀。异距数列数据分布不均匀。,3.确定组限,应能把现象的不同类型划分出来 。,要考虑到数据是连续性变量还是离散型变量。,无法确定实际数据的取值范围,或者数据中存在极端数值,可采用开口组的形式。,4.确定组中值 :(上限下限)2 ,开口组,二、统计数据的展示,当统计数据比较多时,就应该制作表格或者图形进行来展示,使数据的重要特性能从表格或者图形中直观地反映出来,这样可提高分析数据和解释数据的效率。,统计表,是把统计数据用表格的形式展示出来。,类型:,按作用分,调查表,按数据所属的时间分,截面数据表时间序列表,汇总整理表,计算分析表,按分组变量的多少分,单变量分组表多变量分组表,有平行形式交叉形式,统计图,统计图形通常可比统计表格更生动地描述数据。,类型:,饼图是以整个圆的360度代表全部数据的总和,按照各类组所占的百分比(频率),把一个“饼”切割为各个扇形。适用于定性数据。,50家门店按区域分组的饼图,条形图中,每一分类组表示成一个条,条的长度代表了这个组中所含数据的频数或频率。适用于定性数据。,50家门店数按区域分组的条形图,家门店按区域并按人数分组的分段比例条形图,直方图与条形图相似,是在每个分组区间上绘制一个长条形而产生的图形,它可以用来描述已表示成频数或频率的数据。适用于定量数据。,根据表2-5的等距数列,对于异距数列,以组距为宽,以频数密度为高来绘制直方图。,折线图可以在直方图基础上,将每个长方形的顶端中点用折线连接而成,或用组中值与频数(或频率)求坐标点连接而成 。,根据图2-6的直方图绘制的折线图,曲线图当变量的取值非常多,变量数列的组数无限增多时,折线便趋于一条平滑的曲线,这是一种概括描述变量数列分布特征的理论曲线。,枝叶图是探索性数据分析中的一种方法,也是对一批数据进行组织整理的很有价值的一个工具,可用以了解一批数据中由所有观测值构成的数据的取值范围是如何分布的。,第三章 数据的描述性分析,本章将讨论的是数据的总量和相对关系的测度,数据的集中趋势、离散趋势及其形态的测度。,一、绝对数和相对数二、集中趋势的测定三、离散趋势的测定四、数据的形态测定,主要内容,一、绝对数和相对数,(一)绝对数,绝对数(亦称总量指标)是统计资料经过汇总整理后得到的反映总体规模和水平的总和指标。,(3)是计算相对指标和平均指标的基础。,作用,概念,例如,企业的销售收入、一个地区或国家的社会总产值、国内生产总值等。,(1)反映一个国家的国情和国力,一个地区或一个企业的人力、物力、财力,(2)是进行经济核算和经济活动分析的基础,分类,按反映总体的内容分,按反映的时间状态分,按计量单位分,变量总值 单位总数,时期数时点数,实物量价值量,相对数是用两个有联系的指标进行对比的比值,可以反映现象的数量特征和数量关系,并可将现象的绝对差异抽象化,使原来不能直接相比的绝对数可以进行比较。,种类,计划完成相对数,结构相对数,比较相对数,强度相对数,动态相对数,(二)相对数,概念,五种相对数指标的比较,不同时期比 较,动 态相对数注:又称发展速度,强 度相对数注:复名数有正逆指标,不同现象比较,不同总体比较,比 较相对数,同一总体中,部分与总体比 较,实际与计划比 较,结 构相对数,计划完成相对数注:有正逆指标,同一时期比较,同类现象比较,(1)正确选择对比的基数;(2)必须注意统计的可比性;(3)相对指标要与总量指标相结合。,应用原则,二、集中趋势的测定平均数,概念,表明同类现象在一定时间、地点、条件下所达到的一般水平,是总体内某个变量大小各异的观察值的代表性数值。也是对变量分布集中趋势的测定。,数据集中区,变量x,常用的几种平均数,概 念 计算 公 式 特 点,优点:容易理, 便于计算 灵敏度高 稳定性好 和 缺点:易受极值影响 在偏斜分布和U形分布中,不具有代表性,1. 算术平均数( ),一个变量的所有观察值相加,再除以观察值的个数,简单:,加权:,权数解释,权数(Weighted),是分布数列中的频数或频率。对求平均数具有权衡轻重的作用,是影响平均数变动的两个因素之一(另一因素是变量值)。,(1),(2),(3),X,4,5,6,合计,频数,频率(%),10,20,10,25.0,50.0,25.0,40,100.0,X,4,5,6,合计,频数,频率(%),20,40,20,25.0,50.0,25.0,80,100.0,X,4,5,6,合计,频数,频率(%),20,10,10,50.0,25.0,25.0,80,100.0,=5,=5,=4.75,频率分布变了,均值也变。因此,严格地说,权数应指频率。,算术平均数的变形,数学上称其为调和平均数,只是用这种形式时,变量的取值不能为0。,求某种商品三种零售价格的平均价格,调和平均,价格(元),3.3,2.5,2.0,合计,销售额(元),10,10,10,30,常用的几种平均数,概 念 计算 公 式 特 点,优点:灵敏度高 受极值影响小于 和 适宜于各比率之积为总比率的变量求平均缺点:有“ 0”或负值时不能计算 偶数项数列只能用正根,2. 几何平均数( ),几个变量值连乘积的n次根,简单:,加权:,概 念 计算 公 式 特 点,3. 中位数(Me),是一种位置平均数,数据按大小顺序排列,处于数据序列中间位置的数值就是中位数,上限公式:,下限公式:,优点:容易理解, 不受极值影响适宜于开口组资料和些不能用数字测定的事物缺点:灵敏度和计算功能差 间断数Me,常用的几种平均数,常用的几种平均数,概 念 计算 公 式 特 点,4. 众数(Mo),是一种位置平均数,是一批数据中出现次数最多的那个数值.通常只用于定性数据或离散型的定量数据。,上限公式:,下限公式:,优点:容易理解, 不受极值影响 缺点:灵敏度和计算功能差 稳定性差 具有不唯一性,25,30,35,40,45,50,5,10,15,f(人数),月收入:元,36.11,d1,d2,55,位置平均数与算术平均数的关系,1.众数适用于所有的定性数据和定量数据 中位数适用于定性数据中的定序数据和定量数据 算术平均数只适用于定量数据,2.定量数据:若是钟形分布,三种集中趋势指标一般 都可适用。而对J形分布,反J形分布和U形分布,中位数和算术平均数没有任何意义。,3.在确定集中趋势指标的过程中,算术平均数比中位数和众数使用了更多的数据信息 。,4.对于钟形分布且数据量很大时,三种集中趋势指标有如下三种数量关系:,X,f,X,f,X,f,(对称分布),正偏态分布(右),负偏态分布(左),1,2,1,2,应用平均指标的原则,1必须是同质的量方可平均;,2总平均数与组平均数结合分析;,3集中趋势与离散趋势结合分析,三、离散趋势的测定,概念,标志变异指标是反映变量分布离散趋势、与平均指标相匹配的指标。,(1)反映变量分布的离散趋势;,(3)是对事物发展均衡性的量度。,(2)是对平均数的代表性程度的量度;,作用,常用的几种标志变异指标,概 念 计 算方法 特 点,是非众数组所占比重,1异众比率,如百得便利超市公司50家门店按区域划分的众数是A区域,该组的次数是20家,所以异众比率为60%,这说明50家门店按区域划分的离散程度比较大,众数的代表性较差。,异众比率是反映定名数据离散趋势的唯一指标,这个指标越小,说明数据的离散程度越小,集中程度越大,常用的几种标志变异指标,概 念 计 算 特 点,数列中最大值与最小值之差,2极差 (R),R=最大值-最小值R=最大组的上限-最小组的下限,优点:容易理解, 计算方便缺点:不能反映全部数据分布状况,3四分位差,(M3- M1)/2,在反映数据的离散程度方面比全距较为准确,但仍显粗略,是一批数据中的第三四分位数与第一四分位数之差的二分之一,常用的几种标志变异指标,概 念 计 算 特 点,4平均差 (AD),各标志值与均值离差绝对值的算术平均,简单:,加权:,优点:反映全部数据分布状况 缺点:取绝对值 数字上 不尽合理,所有观察值与平均数离差平方平均数的平方根,亦称均方差。标准差的平方即为方差。,5方差(2 s2) 和 标准差( s),优点:反映全部数据分布状况,数字上合理。缺点:受计量单位和平均水平影响,不便于比较,简单:,加权:,概 念 计 算 特 点,6标准差系 数 (V),标准差与均值之商,是无量纲的,两列数据的分布进行离散程度的比较,当它们的平均数不等、计量单位不同时则应消除平均数不同和计量单位不可比的影响。此时就需要用离散系数这种相对数来是测定离散趋势,方差(2)和标准差()是应用最广的标志变异指标,常用的几种标志变异指标,四、数据的形态测定,偏度:是测定数据分布的偏斜程度的指标.。,定义M=(X-A)k/n为变量X关于A的k阶矩。,当A=0,即以原点为中心,上式称为“K阶原点矩”。,K=1,2,3时,有:,一阶原点矩M1=(X-0)1/n=X/n二阶原点矩M2=(X-0)2/n=X2/n三阶原点矩M3=(X-0)3/n=X3/n,当A= ,即以 为中心,上式称为“K阶中心矩”。,K=1,2,3时,有:,一阶中心矩二阶中心矩三阶中心矩,所以,m3可以测定偏度。为消除量纲,转变为系数,再除以3。,0正偏态,峰度:是用来反映数据分布曲线顶端的尖峭或扁平程度的指标。,3尖顶曲线,注:在EXCL等软件中输出的峰度是在此基础上再减3。,五数概括 :即最小值xmin 、最大值xmax 、第一四分位数M1、中位数Me和第三四分位数M3,五个数之间的关系,确定数据分布形态的方法:,数据是完全对称 :,数据是不对称 :,最小值xmin到中位数的距离等于中位数到最大值xmax的距离 。,从xmin到M1的距离等于M3到xmax的距离。,从xmax到中位数的距离大于中位数到xmin的距离。,从M3到xmax的距离大于从从xmin到M1的距离。,右偏分布,从xmin到中位数的距离大于中位数到xmax的距离。,从xmin到M1的距离大于M3到xmax的距离。,左偏分布,箱线图:是基于五数概括的图示方式,使得集中趋势、离散趋势和偏态更为直观。,第五章 参数估计和假设检验,推断统计:利用样本统计量对总体某些性质或数量特征进行推断。,随机原则,总体,样本,总体参数,统计量,推断估计,参数估计,检验,假设检验,抽样分布,抽样分布,简单随机抽样和简单随机样本的性质,无限总体,有限总体,不放回,放 回,样本,样本,放回,不放 回,样本,样本,独立性和同一性,同一性,当n/N5%时,有限总体不放回抽样等同于放回抽样,无限总体,统计量与抽样分布,统计量:即样本指标。,样本均值,样本成数,样本方差,如:,抽样分布:,某一统计量所有可能的样本的取值形成的分布。,性 质,数字特征,0P(Xi)1,P(Xi)=1,均值E(X),方差Ex-E(x)2,方差的平方根即抽样分布的标准差就是推断的,抽样误差。,样本均值的抽样分布(简称均值的分布),抽样,总体,样本,均值,X,(N),均值=Xi/N,x,(n),样本均值是样本的函数,,故样本均值是一个统计量,,统计量是一个随机变量,,样本均值的概率分布称为,样本均值的抽样分布。,均值分布的数学期望和方差,抽 样 方 法 均 值 方 差 标 准差,(1)从无限总体抽 样和有限总体放回抽样,(2)从有限总体不放回抽样,抽样误差,抽样误差,从正态总体中抽样得到的均值的分布也服从正态分布。,从非正态总体中抽样得到的均值的分布呢?,中心极限定理:无论总体为何种分布,只要样本n足够大(n30),均值( )标准化为(z)变量,必定服从标准正态分布,均值( )则服从正态分布,即:,关于均值的抽样分布有如下的一些结论:,1.对于多数总体分布来说,不论其形态如何,如果样本观察值超过30个,那么均值的抽样分布将近似于正态分布。,2.如果总体分布是明显对称的,那么只要样本观察值超过15个,均值的抽样分布也近似于正态分布。,3.如果总体是正态分布的,则不管样本大小如何,均值的抽样分布一定是正态分布的。,两个样本均值之差的抽样分布,抽样,总体,样本,X1,(N1),x1,(n1),抽样,总体,样本,X2,(N2),x2,(n2),估计,(1)如:,(2如果两个总体都是非正态总体,只要n1、n2足够大,根据中心极限定理,可知:,样本成数(即比例)的抽样分布(简称成数的分布),抽样,总体,样本,成数,X,(N),成数P=Ni/N,x,(n),所有可能的样本的成数( )所形成的分布,称为样本成数的抽样分布。,成数分布的数学期望和方差,抽 样 方 法 均 值 方 差 标 准差,(1)从无限总体抽 样和有限总体放回抽样,(2)从有限总体不放回抽样,根据中心极限定理,只要样本足够大, 的分布就近似正态分布。(np和nq大于5时),抽样误差,抽样误差,两个样本成数之差的抽样分布,抽样,总体,样本,X1,(N1),x1,(n1),抽样,总体,样本,X2,(N2),x2,(n2),估计,当n1、n2都足够大时,样本成数 都近似服从正态分布,两个样本成数之差( )也近似服从正态分布。,P1-P2=?,一个样本方差的抽样分布,抽样,总体,样本,若:从一个正态总体中抽样所得到的样本方差的分布,n,S2,则,当,则,两个样本方差之比的抽样分布,抽样,总体,样本,从两个正态总体中分别独立抽样所得到的两个样本方差之比的抽样分布。,n1,S12,则,抽样,总体,样本,n2,S22,参数估计,点估计,以样本指标直接估计总体参数。,评价准则,的数学期望等于总体参数,即,该估计量称为无偏估计。,无偏性,有效性,当 为 的无偏估计时, 方差 越小,无偏估计越有效。,一致性,对于无限总体,如果对任意,则称,的一致估计。,是,充分性,一个估计量如能完全地包含未知参数信息,即为充分量,估计量,点估计,常用的求点估计量的方法,1.数字特征法:,当样本容量增大时 ,用样本的数字特征去估计总体的数字特征。,例如,我们可以用样本平均数(或成数)和样本方差来估计总体的均值(或比率)和方差。,2.顺序统计量法 :,如果把取得的样本观测值按大小排列起来,那么与排列位置有关的统计量就称为顺序统计量。常用的顺序统计量有样本中位数和极差。,当总体服从正态分布时,用样本中位数来估计总体的数学期望 :,3.极大似然估计法:,极大似然估计是根据样本的似然函数对总体参数进行估计的一种方法 。其实质就是根据样本观测值发生的可能性达到最大这一原则来选取未知参数的估计量,其理论依据就是概率最大的事件最可能出现。,区间估计,估计未知参数所在的可能的区间。,评价准则,随机区间,置信度,精确度,随机区间,包含,(即可靠程度)越大越好。,的概率,的平均长度,(误差范围)越小越好,一般形式,或,总体参数,估计值,误差范围,:一定倍数的抽样误差,例如:,抽样误差,一定时,,越大,,概率(可靠性)大;,随之增大,,精确度就差。,参数的区间估计,简单随机抽样,待估计参数,已知条件,置信区间,正态总体,2已知,正态总体,2未知,非正态总体,n30,有限总体,n30(不放回抽样),总体均值 (),未知时,用S,未知时,用S,两个正态总体,已知,两个正态总体,未知但相等,两个非正态总体,n1,n230,两个总体均值之差1-2,简单随机抽样,待估计参数,已知条件,置信区间,无限总体,np和nq都大于5,总体成数 (p),无限总体, n1p15, n1q1 5n2p25, n2q25,两个总体成数之差(P1 - P2),有限总体,np和nq都大于5,有限总体,,n1p15, n1q1 5n2p25, n2q25,简单随机抽样,待估计参数,已知条件,置信区间,正态总体,总体方差,两个正态总体,两个总体方差之比,样本数的确定,待估计参数,已知条件,样本数的确定,正态总体,2已知,总体均值(),例:误差范围,简单随机抽样,有限总体,不放回抽样,2已知,总体成数 (P),服从正态分布,有限总体,不放回抽样,假设检验,基本思想,检验规则,检验步骤,常见的假设检验,方差分析,基本思想,小概率原理:,如果对总体的某种假设是真实的,那么不利于或不能支持这一假设的事件A(小概率事件)在一次试验中几乎不可能发生的;要是在一次试验中A竟然发生了,就有理由怀疑该假设的真实性,拒绝这一假设。,总 体(某种假设),抽样,样 本(观察结果),检验,(接受),(拒绝),小概率事件未 发 生,小概率事件发 生,假设的形式:,H0原假设, H1备择假设,双侧检验:H0:=0 , H1:0,单侧检验: H0: = 0 , H1:0 H0: = 0 , H1:0,假设检验就是根据样本观察结果对原假设(H0)进行检验,接受H0,就否定H1;拒绝H0,就接受H1。,检验规则,确定检验规则,检验过程是比较样本观察结果与总体假设的差异。差异显著,超过了临界点,拒绝H0;反之,差异不显著,接受H0,差 异,临界点,拒绝H0,接受H0,c,c,判 断,两类错误,接受或拒绝H0,都可能犯错误,I类错误弃真错误, 发生 的概率为,II类错误取伪错误,发生 的概率为,检验决策 H0为真 H0非真,拒绝H0 犯I类错误() 正确,接受H0 正确 犯II类错误(),怎样确定c?,大就小,小就大,基本原则:力求在控制前提下减少,显著性水平,取值:0.1, 0.05, 0.01, 等。如果犯I类错误损失更大,为减少损失,值取小;如果犯II类错误损失更,值取大。,确定,就确定了临界点c。,设有总体:XN(,2),2已知。,随机抽样:样本均值,标准化:,确定值,,查概率表,知临界值,计算Z值,作出判断,0,接受区,拒绝区,拒绝区,当检验判断为接受原假设H0时,就有可能犯取伪的错误即II类错误。确定犯第类错误的概率比较困难 ,具体计算可根据书上的例子。统计上把 称为统计检验的势,它是原假设实际上是错误的应该被拒绝的概率。,II类错误的概率的计算,检验步骤,根据具体问题的要求,建立总体假设H0,H1,1,2,选择统计量确定H0为真时的抽样分布,3,给定显著性水平,当原假设H0为真时,求出临界值。,计算检验统计量的数值与临界值比较,4,几种常见的假设检验,总体均值的检验,条件,检验条件量,拒绝域,H0、H1,(1) H0:=0 H1:0,z,(2) H0: = 0 H1:0,(3) H0: = 0 H1:,z,0,z,0,正态总体2已知,总体均值的检验,条件,检验条件量,拒绝域,H0、H1,(1) H0:=0 H1:0,t,(2) H0: = 0 H1:0,(3) H0: = 0 H1:,t,0,t,0,0,正态总体2未知(n30),总体均值的检验,条件,检验条件量,拒绝域,H0、H1,(1) H0:=0 H1:0,z,(2) H0: = 0 H1:0,(3) H0: = 0 H1:,z,0,z,0,0,非正态总体n302已知或未知,两个总体均值之差的检验,条件,检验条件量,拒绝域,H0、H1,(1) H0: 1=2 H1: 1 2,z,(2) H0:1 = 2 H1: 1 2,(3) H0: 1 = 2 H1:1 2,z,0,z,0,0,两个正态总体,已知,两个总体均值之差的检验,条件,检验条件量,拒绝域,H0、H1,(1) H0: 1 = 2 H1: 1 2,t,(2) H0: 1 = 2 H1: 1 2,(3) H0: 1 = 2 H1: 1 2,t,0,t,0,0,两个正态总体,未知,但相等,两个总体均值之差的检验,条件,检验条件量,拒绝域,H0、H1,(1) H0:1 = 2 H1:1 2,(2) H0:1 = 2 H1:1 2,(3) H0:1 = 2 H1:1 2,0,z,0,0,两个非正态体n130 n230,已知或未知,z,z,总体成数的检验,条件,检验条件量,拒绝域,H0、H1,(1) H0:P=P0 H1:PP0,z,(2) H0:P = P0 H1:PP0,(3) H0:P = P0 H1:PP0,z,0,z,0,0,np5nq5,两个总体成数之差的检验,条件,检验条件量,拒绝域,H0、H1,(1) H0:P1=P2 H1:P1 P2,z,(2) H0: P1 P2 H1:P1 P2,(3) H0:P1 P2 H1:P1 P2,z,0,z,0,0,n1p15n1q15n2p25n2q25,一个总体方差的检验,条件,检验条件量,拒绝域,H0、H1,总体服从正态分布,两个总体方差之比的检验,条件,检验条件量,拒绝域,H0、H1,总体服从正态分布,F,F,F,方差分析,一、问题的提出,同一原材料加工产品质量,产地,各组产品的质量是否有显著差异?,随机 原则,一个班级 的学生,某门课程的成绩,专业 分组,各组学生的成绩是否有显著差异?,差异,随机误差,系统误差,随机 原则,加以比较,若存在显著性差异,则说明该因素的影响是显著的,二、假定条件,各组水平都服从正态分布,均值和方差未知,但方差相同,(i=1,2,3, ,k),三、单因素方差分析,H0:各水平的均值相等 H1:各水平均值不全相等,总离差平方和=组间离差平方和+组内离差平方和,离差平方和:SST= SSB + SSE,自由度: n-1 = k-1 + n-k,方差: MST=MSB + MSE,检验量=系统误差/随机误差即: F=MSB/MSE,检验规则,因为:F=3.15 (0.05)所以接受原假设,认为不同的家庭背景对学员成绩没有显著影响。,四、不考虑交互作用的两因素方差分析,H0 (A):因素A的k个水平的均值相等 H1:不全相等,总离差平方和=组间离差平方和 +组内离差平方和,离差平方和:SST= SS(A)+SS(B)+ SSE,自由度: kh-1 = k-1 +h-1 + (k-1)(h-1),方差: MST=MS(A)+MS(B) +MSE,检验量=系统误差/随机误差即: F(A)=MS(A)/MSE F(B)=MS(B)/MSE,H0(B): 因素B的h个水平的均值相等 H1:不全相等,检验规则,因为:F(A)=0.393 (0.05) P(B)(0.99) (0.05)所以接受原假设,认为不同的机器设备和不同的工艺方法对生产量都没有显著影响。,五、考虑交互作用的两因素方差分析,H0 (A):因素A的k个水平的均值相等 H1:不全相等,总离差平方和=组间离差平方和 +组内离差平方和,离差平方和:SST= SS(A)+SS(B)+SS(AB)+ SSE,自由度: khm-1 = k-1 + h-1 + (k-1)(h-1)+kh(m-1),方差: MST=MS(A)+MS(B) +MS(AB)+MSE,检验量=系统误差/随机误差即: F(A)=MS(A)/MSE F(B)=MS(B)/MSE F(AB)=MS(AB)/MSE,H0(B): 因素B的h个水平的均值相等 H1:不全相等,H0(AB): AB之间不存在交互影响的作用 H1:有交互影响,检验规则,例:,因为:F(A)=7.893.40 F(B)=0.532.51或 P(A)(0.002) (0.05) P(AB)(0.0002) (0.05) 所以认为不同的机器设备对日产量有显著影响。不同的工艺方法对日产量没有显著影响。不同机器设备与工艺搭配的交互作用对日产量有显著的影响。,相关分析 回归分析,第六章 相关与回归,相关和回归分析方法,是分析两个或更多变量之间的相互关系,测定它们之间联系的紧密程度,以揭示其变化的具体形式和规律性,以便用一个或几个变量,去预测另一个我们感兴趣的变量。,主要内容,相关分析,概念,种类,线性相关,变量之间关系,函数关系,相关关系,因果关系,互为因果关系,共变关系,确定性依存关系,随机性依存关系,种类,一元相关,多元相关,负 相 关,正 相 关,线性相关,曲线相关,x,y,正 相 关,x,y,负 相 关,x,y,曲线相关,x,y,不 相 关,线性相关,相关系数,测定两变量是否线性相关?,定义式:,未分组:,已分组:,值:,|r|=0 不存在线性关系; |r|1 完全线性相关0|r|1不同程度线性相关(00.3 微弱;0.30.5 低度; 0.50.8 显著;0.81 高度),符号:r0 正相关;r0 负相关,计算公式,相关系数的检验(t检验),检验统计量,回归分析,特 点,一元线性回归,多元线性回归,非线性回归,逻辑回归,种 类,特点,1理论和方法具有一致性;,2无相关就无回归,相关程度越高,回归越好;,3相关系数和回归系数方向一致,可以互相推算。,1相关分析中,x与y对等,回归分析中,x与y要确定自变量和因变量;,2相关分析中x,y均为随机变量,回归分析中