建立计量模型常用的统计学知识培训PPT统计知识.ppt
《建立计量模型常用的统计学知识培训PPT统计知识.ppt》由会员分享,可在线阅读,更多相关《建立计量模型常用的统计学知识培训PPT统计知识.ppt(283页珍藏版)》请在三一办公上搜索。
1、建立计量模型常用的统计学知识,第一、统计数据的类型及基本概念第二、统计数据收集、整理与显示第三、描述平均水平的统计指标第四、描述离散程度的统计指标第五、统计指数的应用第六、抽样分布第七、抽样推断,统计数据的基本类型,混合数据,第一、统计数据的类型及基本概念,几组基本概念,统计总体,标 志,统计指标,变 量,样 本,指标体系,标志表现,变量值,统计总体,总体单位,样本,全国外企,单个外企,部分外企,全校学生,某个学生,部分学生,全 集,元 素,子 集,统计指标与指标体系,统计指标-反映统计总体数量特征的概念和数值。-由两项基本要素构成的,即指标的概念(名称)和指标的取值.-可以分为数量指标(如人
2、口总数、企业总数、职工总数、工资总额等)和质量指标(粮食平均亩产量、职工平均工资、人口密度、出生率、死亡率 等)。指标体系-由一系列相互联系的统计指标所组成的有机整体,用以反映所研究现象各方面相互依存相互制约的关系.-指标体系的设置不但是客观现象的反映,而且也是人们对客观事物认识的结果。,变量和变量值,可以取不同值的量,称为变量。总体单位的数量标志大多是可变的,也即其标志表现是有差异的,如年龄、工资、文化程度等。这种可变的数量标志就是变量,各单位的标志值,就是变量值。变量按其所受影响因素不同,可分为确定性变量和随机变量。变量按其数值形式不同,可以分为离散型变量和连续型变量。,一、统计数据的来源
3、二、统计数据整理与显示三、统计表的设计,第二、统计数据的收集、整理与显示,统计数据的来源,(一)、次级统计数据的来源(二)、初级统计数据的来源,(一)、次级统计数据的来源,次级统计数据主要是从公开渠道获得的数据,如公开出版的报纸、书籍及相关网站中的数据,有些未公开的数据在获得数据所有者允许的情况下也可以使用。,刊登我国年度宏观数据的刊物主要是国家、地区和行业或部门的年鉴。例如,中国统计年鉴、中国统计摘要、中国经济年鉴、中国农村统计年鉴、中国城市统计年鉴、中国社会统计年鉴、中国人口统计年鉴、中国劳动统计年鉴、中国工业经济统计年鉴、中国财政年鉴、中国金融年鉴以及全国各省、市、自治区、直辖市、新疆生
4、产建设兵团的统计年鉴等。,对于某些特定行业的数据,如证券业数据,我们可以从各证券报、中国证券监督管理委员会、上海证券交易所、深圳证券交易所、各证券公司等单位的网站数据库和出版发行的刊物中取得有关数据。各上市公司的季报、半年报、年报中的各种数据属于公开数据,可以直接使用,但如果存在后续的补充报告,在使用时应该及时调整。对于未公开的微观经济数据,由于涉及企业的内部机密或个人的隐私权,我们在采用有关数据时一定要征得相关单位和个人的同意,在发表研究成果时还应尽量避免直接公布原始数据。,刊登世界各国宏观数据的刊物主要由联合国统计司(UNSD)、世界银行(WB)、国际货币基金组织(IMF)、世界贸易组织(
5、WTO)、世界卫生组织(WHO)、国际能源机构(IEA)、国际清算银行(BIS)、欧盟统计局(EUROSTAT)、亚洲开发银行(ADB)、国际电信联盟(ITU)等国际性组织编制出版。有些使用面广的资料,在取得版权后,由我国有关机构翻译成中文出版。例如世界经济年鉴、世界发展报告、国外经济统计资料等。,选择次级数据时应该注意的问题:,(1)应根据研究目的选择次级数据;(2)注意次级数据变量名称的含义是否发生过变化。随着历史的变迁,有些次级数据变量名称的内涵或外延发生了变化,在采用数据时应该进行调整;(3)注意次级数据的计算口径和计算方法是否一致;(4)注意尊重次级数据所有者的权益。一是要合法采用次
6、级数据;二是要注明数据的来源出处,这样既尊重他人的劳动成果,又便于阅读者核实。,(二)、初级统计数据的来源,初级统计数据的来源渠道主要有两个:一是专门组织的调查;常用的统计调查方式主要有普查、统计报表调查和抽样调查等。二是科学试验。前者是社会经济数据的主要来源,后者是自然科学数据的主要来源。,统计数据整理,品质数据的整理与展示,(一)分类数据的整理与展示1频数和频数分布 频数是指落在某类中的数据个数,又称为次数。在分类的基础上,将总体的所有单位按类进行整理,形成总体单位在各组间的分布,称为频数分布或次数分布。频数分布的构成要素有两个:一是品质变量的各种具体表现或数量变量值所形成的组。二是与各个
7、组相对应的总体单位数,即频数;或各组单位数占总体单位总数的比重,即频率,它可以用百分数表示,也可以用小数表示。,频数分布可以用表格的形式反映,也可以用图形来表现。用表格来反映的称为频数分布表,而用图表现的称为频数分布图。例2.18 某酱油企业为了解本公司产品在当地的市场占有率,组织了专门的市场调查小组,调查员在随机抽取一家超市后,对某天上午的60名顾客购买的酱油品牌进行了登记,原始数据如下:,要利用Excel编制分类数据的频数分布表,需要把各类用一个数字代码来表示。在本例中,各类指定的代码是:1李锦记;2美味鲜;3海天;4珠江桥;5金狮;6加加。在Excel中,将各品牌代码输入到Excel工作
8、表的B1:B60,并将所有品牌的代码单作一列,为“接收区域”,即工作表的C3:C8。,创建频数分布表和柱形图的步骤如下:,第一步:在“工具”下拉菜单中选择“数据分析”。第二步:在“数据分析”的选择栏中选择“直方图”,单 击“确定”项。第三步:用鼠标圈定或键盘输入对话框“输入区域”框中的数据 区域(本例为B1:B60)。用鼠标圈定或键盘输入对话框“接收区域”框中的代码区 域(本例为C3:C8);在“输出选项”中选择“输出区域”并键入结果输出的区域(本例为D2);选择“图表输出”;在这里暂不选择“Pareto图”和“累积百分率”。点击“确定”选项。Excel输出的结果如表2-2所示:,表2-2 E
9、xcel输出的频数结果,为了便于阅读,可用品牌名称代替表2-2中的“接收”,用频数代替表中的“频率”,用各品牌的名称代替其品牌代码,用“合计”代替表中的“其他”,将频数总和60输入到I9中,并计算出各自的比重和百分比,结果如表2-3所示:,2分类数据的图示,分类数据的图示方法主要包括条形图、Pareto图、对比条形图和饼图。(1)条形图 若将各类别放在纵轴,用宽度相同、长度不等的横条表示各类的频数多少这样形成的图形称为条形图。有了频数分布表后可直接应用Excel中的“图表向导”,选择“条形图”,点击“下一步”,在“数据区域”内键入数据类别和相应的次数的位置(在例2.18为D3:E8),点击“完
10、成”,即可得到条形图(图2-1)。,条形图(图2-1),柱形图,(2)Pareto图,柏拉图(Pareto图)可以说是按次数多少排序后的柱形图。在制作频数分布表时选择Pareto图,会出现两个并排的频数分布表,对右边的频数分布表中各品牌的代码用其名称代替,删除最下面的“其他”,使用Delete键删除图中的“接收”、“直方图”、“频率”和最右边的数字“0”;连击任一柱子,在“数据系列格式”中选择“数据标志”的“显示值”;连击图上面或右边的边框,在“绘图区格式”中选择边框“无”,点击“确定”后即可完成Pareto图(图2-3)。,图2-3 不同品牌酱油的Pareto图,(3)对比条形图,当分类变量
11、在不同时间或空间上有多个值时,为表明它们各自在不同时间或空间上的变化情况,可绘制对比条形图。在Excel“图表向导”的“条形图”中,选择子图表类型的一个即可。例2.19 某饮料批发部经营的4种饮料第二、三季度销售情况如表2-4所示:,(4)饼图(pie chart),有了频数分布表后,在Excel“图表向导”的“饼图”中,点击“下一步”,键入数据区域;点击“下一步”,在数据标志中选择“显示百分比及数据标志”,即可完成饼图的绘制。根据例218酱油品牌数据制作的饼图如图2-5所示:,顺序数据的整理与展示,1累计频数和累计频率 累计频数是指将顺序数据中各组的次数按一定的方向逐级累计所得的结果。它又可
12、分为向上累计和向下累计两种。从顺序数据的最低一组逐级向最高一组累计频数,称为向上累计。从顺序数据的最高一组逐级向最低一组累计频数,称为向下累计。,【例220】为了解小区物业管理的质量,研究人员随机抽取了甲乙两个大型居民小区,就“您对该小区的物业管理质量是否满意”的问题,各调查了150户居民,结果如表2-5和表2-6所示:,2顺序数据的图示,(1)累计频数分布图,(2)环形图(doughnut chart),环形图的中间是一个“空洞”,环上的每一段表示顺序数据的一个类别。在表示多个总体或样本数据不同类别的差异时,环形图用不同的环以示区别,这是饼图不能做到的。,对于例220,数值型数据的整理与展示
13、,关于分类数据、顺序数据整理与展示的所有方法都适用于数值型数据,还有一些适合于数值型数据的方法并不适合于分类数据和顺序数据。,(一)数据分组,1数据分组的概念 数据分组是根据被研究现象的特征和研究目的,按照一个或几个重要变量,将原始数据划分为性质不同的若干个组成部分的一种统计方法。对原始数据进行分组,主要是为了划分现象的类型,研究事物内部结构的变化规律,以及现象之间的依存关系。,2数据分组应注意的问题,(1)保持组内总体单位的同质性和组间总体单位的差异性。数据分组兼有“分”与“合”两层含义,对总体而言是“分”,即把总体内不同性质的单位分别归入不同的组,体现组间单位的差异性;对总体单位而言则是“
14、合”,即把性质相同的单位合在一起,使组内各单位具有同质性。(2)统计分组要符合穷举性原则。穷举性又称完备性,是指总体的任一单位都有所归属,各单位都找到适合自己的组,这样分组的结果就能包括全部单位,不会出现遗漏。(3)统计分组要符合互斥性原则。,3数据分组的方法,数据分组的关键在于分组变量的选择和各组界限的划分。在划分各组界限时,要了解变量值的最大可能变异范围,再根据客观事物本身从量变到质变的内在规律性,来规定各组间的数量界限。数据分组根据分组变量的多少可以分为简单分组和复合分组。简单分组又称单一分组,是对被研究现象总体只按一个变量进行分组。如人口按年龄分组,企业按利润额分组,考生按成绩分组等。
15、,复合分组就是对原始数据按两个或两个以上变量进行层叠式分组。其分组方法是在确定分组变量中的主要变量和辅助变量后,先按主要变量进行分组,然后在第一次分组的基础上再按辅助变量进行第二次分组,按所选变量的顺序,在前一次分组的基础上进行分组,直到最后一层为止。,复合分组选择两个或两个以上变量进行层叠分组,可以从不同角度了解总体内部的构成,能更全面、更深入地说明总体的本质特征。但是,如果分组变量过多,会出现组数庞大、层次复杂、结构松散等情况,反而不能清楚地说明总体的特征。实际工作中,选择23个重要变量进行复合分组比较适宜。但对于总体单位较少的情况,采用复合分组有时难以反映总体的内部结构特征,因此一般不采
16、用这种方法。,数据分组,还需要明确是采用单个变量值分组,还是采用由两个变量值形成的区间(即组距)分组,这取决于各数量变量值的变动范围。当变量值的变动范围很小,即使用每个变量值作为一组,所得到的组数也只有少数几个组时,则可采用单个变量值分组。,如果变量值的变动范围很大,采用单个变量值分组所得到的组数很多,难以反映总体的分布规律,则应该采用组距分组。采用组距分组时,由于决定事物性质的数量界限会因人的主观认识不同而异,不同的人对同一资料会得到不同的频率分布,但是使频率分布尽可能准确地反映总体的分布规律是基本的要求。【例221】已知某城市甲居民区80户家庭2007年8月的人均通信支出额的资料,试编制这
17、些家庭人均通信支出额的频数分布表。,表2-7 80户家庭2007年8月的人均通信支出额 单位:元,【解】由于原始数据比较多,在对数据进行排序后,宜采用组距分组编制频数分布表。(1)确定组数 组数取决于原始数据中数据的多少和变量值极差的大小,极差等于数据中最大变量值与最小变量值之差,亦称全距。一般而言,数据越多,极差越大,分组数目就应该越多一些。但根据惯例,人们很少使用少于6个或大于16个的分组数目。,根据Sturges经验公式,经粗略观察,80户家庭人均通信支出额的资料接近于正态分布,表2-8可确定组数为7。,(2)确定组距,一般情况下,用两个变量值组成的一个区间作为一个组时,该组的较小变量值
18、叫下限,较大变量值叫上限,下限与上限之间的距离叫组距。如果相邻两个组的组限不相等,则有 某组组距=本组上限前组上限(2.2)如果相邻两个组的组限相等,即本组下限等于前组上限时,可按式(2.3)计算组距,即 某组组距=本组上限-本组下限(2.3),如果每个组的组距相等,叫等距分组。若各个组的组距不完全相等,叫不等距分组。采用等距分组,便于分析总体的内部结构,但也可以根据研究目的和资料的特殊性而采用不等距分组。在等距分组情况下,组数确定以后,组距也就基本确定了。组距、组数与极差之间的关系用公式(2.4)表示即为:组距=极差组数(2.4),(3)确定组限,组限即为相邻两组的界限,有下限和上限之分。变
19、量的性质不同,组限的确定方法也不同。对于离散变量,相邻组的组限相连但不重叠,即本期上限与后一组下限能按序连接,但不相等。比如,高等学校学生各个班的规模按人数分为:1524人、2534人、3544人、4554人、对于连续变量,相邻组的组限必须重叠,即本组上限等于后一组的下限,而本组下限又等于前一组的上限,以免遗漏数据,如考生按成绩分组为:“5060分”、“6070分”、“7080分”、“8090分”、“90100分”等。,“上组限不在内”原则,实际工作中,有时为了方便,确定离散变量的组限时也按连续变量的组限确定方法处理。如果遇到某变量值刚好等于相邻组的组限时,习惯上是将这个变量值归入下限所在的一
20、组,亦为“上组限不在内”原则,但最后一组的上限应包括在最后一组中。比如,甲考生的成绩为70分,那么这个70分应归入“7080分”一组,而不是“6070分”一组。,如果资料中存在极小值或极大值,通常采用开口组,即第一组不取下限,最后一组不取上限。如某班学生考试成绩绝大多数在5080分之间,只有某个学生的成绩为35分,那么第一组可设为“60分以下”;若有另一个学生的成绩为95分,而“8090分”一组中没有数据,则取最后一组为“80分以上”。当然,第一组和最后一组可以单独设为开口组,也可以同时设为开口组,视数据的具体情况而定。另外,确定组限时,要求第一组的下限略小于或等于最小变量值,最后一组的上限略
21、大于或等于最大变量值。,(4)编制频数分布表,利用Excel工作表编制数值型数据的频数分布表时,要先对原始数据进行排序,作为A列的数据区域(例2.21为A1:A80),再取各组的上限放在B列组成接收区域(例2.21为B2:B8)。运用在“工具”下拉菜单中的“数据分析”,选择“直方图”,单击“确定”项;将数据区域和接收区域键入;在“输出选项”中选择“输出区域”并键入结果输出的区域(例2.21为C2);选择“图表输出”;点击“确定”选项。由于Excel输出结果的接收栏不是组距分组的形式,故直接对结果进行修改,用80120代替120,用120160代替160,将“其他”改为“合计”,合计栏的值改为8
22、0,用“人均通信支出额”代替“接收”,用“频数”代替“频率”,并计算出频率和百分比,得到表2.9:,频数分布表的编制(例2),【例】某电脑公司2002年前四个月各天的销售量数据(单位:台)。试对数据进行分组。,原始数据,频数分布表的编制 举例(步骤),确定组数;,确定各组的组距:组距(237-141)10=9.6 10,3.用Excel制作频数分布表,等距分组表(上下组限重叠),直方图的绘制举例(依据第100张数据绘制),某电脑公司销售量分布的直方图,我一眼就看出来了,销售量在170180之间的天数最多!,4组中值的计算,组中值是各组的下限与上限之间的中点数值。计算组中值的常用方法是取上限和下
23、限的简单平均数,即:(25)比如,表2-9中第一组(80120)的最后一组(320360)的组中值=340元,统计表的设计,统计表是表现数据的另外一种形式。数据的收集、整理和分析的各环节都要用到统计表。统计表不仅是表现数据和汇总数据的必要手段,更是进行统计分析的有效工具。利用统计表汇总数据,也便于检查数据的完整性和准确性。在运用统计表撰写分析报告时,能够节省篇幅,起到简明易懂的作用。,一、统计表的结构,根据使用者的要求和数据的特点,统计表有多种具体形式,但不论哪种形式的统计表,从外形看都由表头、行标题、列标题和数字资料四个部分组成。表头部分主要说明统计表的名称,一般包括表号、总标题,在所有数字
24、资料的计量单位相同时,其计量单位在表的右上角注明。行标题通常用来表示横向变量的名称,一般在表的左边。列标题通常用来表示纵向变量的名称,一般在表的上边。数字资料是说明现象特征的数据,处在统计表的中间部分,数字资料都要有明确的计量单位。,二、统计表的设计规则,总的要求是统计表能够满足科学、实用、简练、美观的设计原则。具体来说,编制统计表时应注意如下几点:1合理安排统计表的结构。2统计表的总标题、行标题、列标题都要能 简明扼要地说明有关内容。,3统计表的左右两端一律不封口;表的上下两端一般用粗线,其他的中间线都用细线隔 开。4表中数据一般采用右对齐形式,有小数点时以小数点对齐,同栏数据要具有同一精确
25、度;不要求填写或不可能有答案的表格单元,一般用“”表示。5若使用的是次级资料,应在表的下方注明资料来源。,第三、描述平均水平的统计指标,算术平均数,(一)简单平均数算术平均数是指将一组数据相加后除以数据的个数所得到的一个数值.1.简单算术平均数 如果是未分组整理的原始资料,则直接将各个数据加总再除以数据的个数即得到平均数。,算术平均数,设一组数据为,则算术平均数用表示,其计算公式为,算术平均数,【例3.1】根据表3.1中的数据,分别计算50个考生政治课和统计学课的平均成绩:,算术平均数,根据分组整理的数据计算平均数时,需要先用每个组的变量值或组中值分别乘以各自的频数或频率,然后加总再除以总次数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 建立 计量 模型 常用 统计学 知识 培训 PPT 统计
链接地址:https://www.31ppt.com/p-2911215.html