第十四章统计分析方案课件.ppt
《第十四章统计分析方案课件.ppt》由会员分享,可在线阅读,更多相关《第十四章统计分析方案课件.ppt(71页珍藏版)》请在三一办公上搜索。
1、第十四章统计分析,目录,第一节统计分析概述第二节描述统计与推断统计第三节单变量统计分析第四节双变量统计分析第五节多变量统计分析简介,重点问题,统计分析概述描述统计和推断统计单变量统计分析双变量统计分析多变量统计分析,第一节统计分析概述,统计分析就是运用统计学原理和方法处理调查所获得的数据资料,简化和描述数据资料、揭示变量之间的统计关系,并进而推断总体的一整套程序和方法。,一、统计分析的目的,简化和描述数据 用样本推断总体,如平均数、百分比等发现变量之间的统计关系,二、统计分析的过程,数据预处理就是在统计分析之前对清理后的数据做预备性处理。数据统计分析就是调用统计软件中的各种统计程序对数据进行分
2、析,包括单变量、双变量、多变量统计分析,以及制作统计图、统计表等一系列工作。,三、统计分析的层次,描述统计和推断统计(按照统计分析性质)描述统计是运用样本统计量描述样本统计特征的统计分析方法。描述统计是相对于推断统计而言的,即凡是只涉及样本而不涉及总体特征的统计分析方法都属于描述统计的范畴。推断统计则是以概率理论为基础,运用样本统计量推断总体的统计分析方法。两者密不可分,单变量、双变量、多变量统计分析(按统计分析涉及变量多少),1、单变量统计分析,只能进行描述性研究。只涉及一个变量,如平均数、百分比、标准差等。2、只有双变量统计分析、特别是多变量统计分析,才能进行解释性研究。只有涉及两个或两个
3、以上变量,才有可能分析它们之间的关系(包括相关关系和因果关系)。3、常用的双变量统计分析方法,包括列联表分析与X2检验、各种双变量相关分析、二元回归分析等等。当一项统计分析涉及三个或三个以上变量(其中至少有一个因变量)时,则称为多变量或多元统计分析。,第二节描述统计与推断统计,一、描述统计及其内容描述统计是相对推断统计而言的,就是关于样本的统计分析方法,它的分析结果是样本统计量。描述统计的内容,包括单变量、双变量和多变量等几种层次的统计分析。,二、推断统计与抽样分布,推断统计是运用样本统计量对总体进行推断的一种统计分析方法。由于社会调查的最终目的是研究调查对象的总体,因此,它是社会调查中经常使
4、用的统计方法。推断统计的必备前提是,样本数据必须来自随机抽样调查。,所谓抽样分布,是指在一个总体中重复抽取许多大小一样的样本的统计量(如平均数、方差、标准差)而形成的分布。需要指出的是,样本的抽样分布只是一种理论分布,而不是一种实际的分布。从理论上建立这样一种分布,目的就是运用它来由样本统计量推断总体。,三个重要分布,为了讨论正态总体下的抽样分布,先引入由正态分布导出的统计中的三个重要分布,即 分布,分布,分布。1、分布设 是来自总体 的样本,则称统计量(1)服从自由度为 的 分布,记为,此处,自由度是指(1)式右端包含独立变量个数,分布的概率密度为,的图形如图63所示。,(2),图63,2、
5、分布,设,且 独立,服从自由度为 的 分布,记为,分布又称为学生氏(student)分布,分布的概率密度函数为,(11),图65,3.分布,记为,(16),的概率密度为,(17),容易证明等式:,(20),利用这个等式,查附录表,可以计算当,时的 的值,例如,F分布的上 分位点有表格可查(见附表 5),(一)参数估计人们通常把样本计算出来的统计值成为样本统计量,简称统计量,而把总体统计值成为参数。所谓参数估计,就是运用统计量对总体参数进行推断或估计的统计过程与统计方法。参数估计包括:(1)点值估计(2)区间估计,三、推断统计的两种基本形式,三、推断统计的两种基本形式,1、点值估计,就是选择一个
6、最适当的样本统计量来直接代表总体的参数值。如果一个统计量在参数的点值估计中符合无偏性、一致性、有效性、充分性,则可保证其点值估计的相对误差较小。点值估计的最大缺陷是不知道估计的误差到底有多大。所以,常用的是区间估计。,2、区间估计区间估计是用一个数值区间表示未知总体参数落入该区间的概率或可能性有多大的一种统计方法,是从点估计值和抽样标准误差出发,按给定的概率值建立包含待估计参数的区间。()置信区间与置信水平置信区间是指进行区间估计时,在某一概率水平下总体参数所处的数值区间。区间的上、下限(端点)称为临界值,所确定的概率水平称为置信水平或置信度,以概率表示,称为显著性水平,表示该区间估计的不可靠
7、性程度,即估计参数位于该区间时可能犯错误的概率。,()区间估计的原理,区间估计的理论基础是抽样分布。区间估计的核心问题是把样本统计量与总体参数之间的关系转换成抽样分布来处理。由于抽样分布一定条件下趋近正态分布,借助抽样分布的平均数、标准差及其正态分布的统计特性可以对样本统计量与总体参数之间的关系作出概率意义上的估计与推断。在95%的置信水平条件下,总体平均数的置信区间在99%的置信水平条件下,总体平均数的置信区间,假设检验,假设检验:是以抽样分布原理为基础,检验调查样本中的统计特性是否在总体中同样存在的一种统计方法,它是推断统计中最重要也是最常用的方法。首先是事先对总体的参数或分布形式作出一个
8、假设。然后利用样本信息判断关于总体性质假设是否合理。即判断总体的真实情况与假设是否存在显着的系统性差异。假设检验亦称显著性检验。,事实上,许多研究报告或论文就只有统计描述而没有假设检验,但是,必须明确,有无假设检验的研究结论,其解释或使用的范围是不同的。不经过假设检验的研究结论,只能适用于已调查的对象或样本(在普遍调查中不存在假设检验问题,因为样本等于总体),而不能推断总体;只有在样本统计量基础上经过假设 检验后,才能说样本中发现的现象或规律有多大把握在总体中存在或不存在。需要明确,并不是所有调查数据多能进行假设检验,只有通过随机抽样调查得来的数据才有资格进行假设检验。,假设检验,假设检验的过
9、程,提出假设:使用证伪的原理建立对立假设。虚无假设(H0):是假设在样本中观察到的事实或变量之间的关系在总体中并不存在,即关于“不存在”假设备择假设:它与虚无假设针锋相对的假设,即存在。构造适当的统计量,并根据样本统计量的具体数值规定显著水平,建立检验规则做出判断.假设检验的本质就是要判断虚无假设是否正确若拒绝虚无假设,则意味着接受备择假设,虚无假设与备择假设,.备择假设(H1):如果虚无假设错误则是必然正确的陈述,即与虚无假设相互排斥的假设。表述:逻辑上与虚无假设相反或对立,不能同时成立。表示:参数 或 或 某个值。,一、集中量数分析所谓集中量数分析,是指用一个具体的统计量反映一组数据向该统
10、计量集中趋势的统计方法,它所表示的是一组数据集中的程度或水平。集中量数有平均数、中位数、众数、四分位数、百分位数以及倒数平均数、几何平均数等。其中,常用的集中量数是平均数、中位数和众数。,第三节 单变量统计分析,数据分布的集中性,大学生毕业生的平均初始收入是多少?某地区的居民平均年收入是多少?集中性测量:一种将群体描述为一个整体的有用方法是找到一个单独的数字,能够平均地或者典型的代表一个数据集。代表值常常位于数据分布的中部包括众数、中位数、均值,集中性的描述指标,1.平均值(均值)1)定义:称算数平均数,是把一个变量的所有观测值相加之和再除以观测值数目得到的数值。2)计算:X bar 或者 X
11、一杠;西格玛,累加符号 3)特点:大体位于观察值中部,用于度量重心的平衡点对变量的每一个观察值都加以利用的优点有计算麻烦,对个别极端值敏感的缺点,例题,1.某次考试中,5位同学的得分分别为85分、74分、90分、65分、78分,则这5位同学的平均分数为:,=(85+74+90+65+78)/5=78.4分,例题,如果从调查中获得的是如下5个分组的资料:,=(65*2+74*4+78*2+85*3+90*3)/14=79.07分,例题,如果从调查中获得的是如下5个分组的资料:,=((1/2(65+74)*4+1/2(75+84)*4+1/2(85+100)*2/10)=78.1分,集中性的描述指
12、标,2.中位数 1)定义:又称中数、中点数,指位于按顺序排列的一组数据中央位置的数值。是一个变量分布的中间点,就是一半观测值比它小,一半观测值比它大的那个数值。2)方法:把所有观测值排顺序,由小到大。若观测值个数n为奇数,中位数M就是排序后观测值最中间的一个,即数到(n+1)/2个位置。若观察值个数n为偶数,中位数就是排序后最中间的两个观察值的平均。,集中性的描述指标,五孩子家庭:17岁、14岁、12岁、9岁、5岁 六孩子家庭:17岁、14岁、12岁、9岁、5岁、5岁 3)特点:优点:中位数很好的代表了一组观察值的中点只需很少量的计缺点:除了中间值,中位数并未利用其他观测值,对极端值不敏感。,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第十四 统计分析 方案 课件
链接地址:https://www.31ppt.com/p-3596308.html