《统计学》ppt完整课件.ppt
《《统计学》ppt完整课件.ppt》由会员分享,可在线阅读,更多相关《《统计学》ppt完整课件.ppt(228页珍藏版)》请在三一办公上搜索。
1、统 计 学,第一章 统计和统计数据的收集第二章 统计数据的整理和展示第三章 数据的描述性分析 第四章 概率基础第五章 区间估计和假设检验第六章 相关与回归分析第七章 非参数统计第八章 时间数列分析第九章 指数,结束,第一章 统计和统计数据的收集,一、什么是统计 二、数据 三、搜集数据的组织方式 四、有关数据调查的几个问题,主要内容,目录,一、什么是统计 ?,(一)统计包含三种涵义,两重关系,1. 统计工作:对统计数据进行搜集、整理和分析的过程 。,2. 统计数据:统计工作所产生的成果,用以描述我们所研究现象的属性和特征 。如统计图表,统计分析报告等。,3. 统计学:一门研究总体数量特征的方法论
2、科学。,统计工作统计资料统 计 学,工作与工作成果关系,实践与理论关系,(二)四个重要的术语,所研究的具有某些相同性质的全部单位或事件的整体。,总体,无限总体:含无限多个单位。,范围,有限总体:含有限个单位。,样本: 亦可称为抽样总体,是从总体中抽取部分单位所组成的整体,用以分析总体。,参数: 亦可称为总体指标,是综合测量的整个总体的某个数量特征。,统计量:亦可称为样本指标,是根据样本数据计算的综合测量值,可用以反映或估计、推断总体的某个数量特征。,(三)统计学的内容,1. 描述统计,关于搜集、展示一批数据,并反映这批数据特征的各种方法,其目的是为了正确地反映总体的数量特点。,2. 推断统计,
3、根据样本统计量估计和推断总体参数的技术和方法。,描述统计是推断统计的前提,推断统计是描述统计的发展。,二、数据,(一) 为何需要数据 ?,统计学要研究各种随机变量,通过对这些随机变量的观察所获取的数据包含了我们所需的信息,这些信息能有助于我们在许多场合中做出更为正确的决策。例如:,市场研究者需要对产品的特性进行评估,以区分不同的产品。,药品制造厂商需要判别一种新药是否比现在正使用着的药更有效。,审计人员想通过查看某家公司的财务报表,以确认这家公司是否是依据了通行的会计准则做报表。,财务金融分析人员想判断在未来的五年中,哪些行业中的哪些公司最具有成长性。,经济学家想估计我国国内生产总值今年的增长
4、速度。,生产部门的经理按惯例要检查生产过程,以检验其生产的产品质量是否符合公司的标准。,(二)数据分类的原则,互斥原则:每一个数据只能划归到某一类型中,而不能既是这一类,又是那一类 。,穷尽原则:所有被观察的数据都可被归属到适当的类型中,没有一个数据无从归属。,(三)数据的类型,1. 定性数据和定量数据,定性数据:用文字描述的 。如在本章的“统计引例”中消费者对永美所提供服务的总体评价等都属于文字描述的定性数据。,定量数据:用数字描述的。如企业的净资产额、净利润额等。,2. 离散型数据和连续型数据,变量,若我们所研究现象的属性和特征的具体表现在不同时间、不同空间或不同单位之间可取不同的数值,则
5、可称这种数据为变量。,类型,离散型变量:数据只能取整数。如一家公司的职工人数。,连续型变量的数据可以取介于两个数值之间的任意数值。如销售额、经济增长率等。,3. 数据的四个等级,定类数据,例如,对人口按性别划分为男性和女性两类。,也称定名数据,这种数据只对事物的某 种属性和类别进行具体的定性描述。,能够进行的唯一运算是计数,即计算每一个类型的频数或频率(即比重)。,定类数据,例如,对企业按经营管理的水平和取得的效益划分为一级企业、二级企业等。,定序数据,也称序列数据,是对事物所具有的属性顺序进行描述。,定距数据,如10、20等。它不仅有明确的高低之分,而且可以计算差距,如20比10高10,比5
6、高15等。,也称间距数据,是比定序数据的描述功能更好一些的定量数据。,定距测定的量可以进行加或减的运算,但却不能进行乘或除的运算。,定比数据,如产量、产值、固定资产投资额、居民货币收入和支出、银行存款余额等。,也称比率数据,是比定距数据更高一级的定量数据。它不仅可以进行加减运算,而且还可以作乘除运算。,测定层次,特征,运算功能,举例,1. 定类测定2. 定序测定3. 定距测定4. 定比测定,分类分类;排序分类;排序;有基本测量单位分类;排序;有基本测量单位;有绝对零点,计数计数;排序计数;排序;加减计数;排序;加减乘除,产业分类企业等级温度商品销售额,统计数据四个层次的概括,4. 截面数据和时
7、间序列数据,截面数据:所搜集的不同单位在同一时间的数据。例如,所有上市公司公布的2004年年度的净利润。,时间序列数据:所搜集的同一总体或单位在不同时间的数据。某公司公布的1993年到2004年的年度净利润就是时间序列数据。,5. 原始数据和次级数据,原始数据:指直接从各个调查单位搜集的、尚未经过整理的统计数据资料,也称一手数据。,次级数据:指那些已经加工整理过的,往往是公开发表的数据,也称二手数据。 如从报纸杂志、统计年鉴、会计报表上取得的数据 。,(四)数据的来源,1. 从政府机构、各种行业组织、公司和企业所公布的数据中获取。就是把政府机构、各种组织和公司所公布的数据作为来源,这种数据往往
8、是次级数据。,2. 设计一次试验以获取必要的数据。例如,在检验洗衣机洗净程度的研究中,研究人员通过实际洗涤脏衣服,来研究哪种牌子的洗衣机效果最佳。,3.从观察研究中获取。研究人员通常是在自然状态下,进行直接的观察。 例如,观察路口的交通流量、观察顾客在商场的购买行为和观察流水线上的产品质量等。,4. 进行一次调查。它对所调查人们的行为不进行任何控制,仅提出诸如出生年月、爱好、消费习惯、对某一事件的看法和其他特征方面的问题,然后对他们回答的结果进行整理、编码、列表和分析。,调查方案的主要内容,确定调查目的,确定调查对象和调查单位,拟订调查提纲,确定调查时间,编制调查的组织计划,三、数据搜集的组织
9、方式,(一)普查、抽样、统计报表制度和重点调查,1.普查,特点:,工作量大,时间性强,需要大量人力和财力。,任务:,搜集重要的国情国力和资源状况的全面资料,为政府制定规划、方针政策提供依据。,方式:,建立专门机构,配备专门人员调查。,利用基层单位原始记录和核算资料进行调查。,原则:,规定统一的标准时点。,规定统一的普查期限。,规定统一的调查的项目和指标。,2.抽样调查,特点:,1.按随机原则从总体中抽取样本;,2.以样本指标(统计量)为依据推断总体参数 或检验总体的某种假设;,3.抽样误差可以事先计算并加以控制。,3.统计报表制度,是按一定的表式和要求,自上而下统一布置,自下而上提供统计资料的
10、一种统计调查方法。,这种搜集统计数据方法是伴随着计划经济而产生的,并曾在我国占主导地位。现在,在社会主义市场经济条件下,仍是我国搜集统计数据的组织方式之一。,4.重点调查,特点:,在总体中选择个别或部分重点单位进行调查。,任务:,及时了解总体基本情况,为主管部门指导工作服务。,方式:,重点单位指在总体中有举足轻重地位的单位,其标志值在总体标志总量中占有绝大比重。,经常性调查;同报表制度结合,用统计报表调查。,例如,要了解全国钢铁生产的基本情况,只要调查鞍钢、宝钢、首钢、武钢、包钢等十几家特大型的钢铁企业就可以掌握全国钢铁企业生产的基本情况 。,(二)抽样的优点,1.适用的范围广。对于有限总体,
11、从理论上讲,既可以进行普查也可以进行抽样;对于无限总体,就只能进行抽样。若理论上可以而实际上很难采用全面普查的情况,也只能采用抽样。如产品质量的破坏性检验、居民住户调查等。,2.与全面普查相比,抽样最大的优点是节省人、财、物力和时间。,3.随机抽样可以比普查更为精确。,(三)抽样的类型,非随机抽样,随机抽样,判断抽样,定额抽样,方便抽样,简单随机抽样,抽样类型,系统抽样,分层抽样,整群抽样,非随机抽样,又称为非概率抽样 ,是不按照随机原则来抽取样本中的单位或个体。,特点,具有方便、快速和低成本,精确性差,结论缺乏普遍性,判断抽样,又称为典型调查,是从事有关工作的专家按照一定的标准有意识地在总体
12、中选择若干有代表性的单位组成样本进行调查,代表单位的选取标准应根据统计研究的目的而定。,定额抽样,是根据已定的单位数抽取样本,往往是对总体了解甚少的时采用。如想获取某地区化妆品的销售情况,对该地区的5家商厦进行调查。,方便抽样,是为了取样方便,随意地抽取样本单位。街头偶遇式调查就是一种最为常见的方便抽样。,随机抽样,是根据随机原则来抽取样本单位 .,简单随机抽样,方法:在抽样框中的每个单位都具有相同的被抽中的机会,每个容量相同的样本被抽中的机会也是相同的。,亦称为纯随机抽样,抽取样本的方法:有放回抽样和无放回抽样。,适合:总体内部差异不是很大,规模也不大的情况 。,系统抽样,方法:抽样框中的N
13、个单位被分成k个系统,k等于抽样框的容量N除以所需的样本容量n,在抽样框中前面的k个个体或单位中随机抽出第一个样本单位,然后,可在其后的每隔k个单位抽取样本中其余的部分。,亦可称为等距抽样,编号有两种方法:,一种是利用原有的顺序或编号 。如学生的注册名单,或者是从生产流水线上下来的、有编号的产品等。,对所研究的总体已有所了解,则可用已知的相关变量对抽样框中的单位进行编号。,分层抽样,亦可称为类型抽样,方法:将总体全部单位分类,形成若干个类型组,后从各类型中分别抽取样本单位,合成样本。,总体N,样本n,等额,等比例,最优,整群抽样,方法:首先把总体中的N个单位划分成为若干个群,并要求每个群对整个
14、总体都具有代表性,然后对群进行简单随机抽样,并对抽中群内的所有单位进行调查研究。,总体群数R=16 样本群数r=4 样本容量,A,B,C,D,E,F,G,H,I,J,K,L,M,N,O,P,L,H,P,D,适合:比简单随机抽样的方法能节约更多的成本,特别当总体的分布地域非常辽阔 时。,四、有关数据调查的几个问题,调查的目的,判断调查误差的大小,调查误 差,登记性误差:,代表性误差,系统性的代表性误差,登记、汇总、过录时产生的误差,以及无回答误差和测量误差等,偶然性的代表性误差即为抽样误差,调查中的道德性问题,1.调查者别有用意地、有意识地选择导向性的问题,使回答者出现有倾向性的回答。,2.询问
15、者有意识地通过语气、语调引导被询问者出现有倾向性的回答。,3.回答者不重视或不愿意回答调查的内容,就很可能提供错误的信息。,第二章 统计数据的整理和展示,统计数据的整理,目录,统计数据的展示,排序,统计分组,频数分布编制,统计表,统计图,一、 统计数据的整理,排序,统计搜集到的大量资料是分散的,不系统的,只能说明各个单位的特征和属性,必须按照科学的原则加以整理,使之条理化和系统化,成为便于储存和传递的、反映总体特征的数据。,就是把定量数据按从大到小或从小到大的顺序排列,把定性数据按习惯的文字顺序排列,便于我们研究其条理。,统计分组,对于定性数据就是依据属性的不同将数据划分成若干组,对于定量数据
16、就是依据属性数值的不同将数据划分成若干组。,组内同质性,组间差异性。,频数分布编制,分组的关键,变量的选择,选择与研究的问题有关的 变量 。,组限的确定。应遵循穷尽和互斥原则 。,定性数列编制:,组限的确定一般比较简单 。,如人口按性别分组、企业按所有制分组等,定量变量编制:,分为单项数列和组距数列两种形式。,单项数列:即变量的一个取值为一组,适用于离散型变量,并且变量的取值较少。,组距数列:即每一组有一个上限值和一个下限值所形成的区间,适用于连续性变量,或离散型变量且变量的取值较多的情况。,注意以下三个方面的问题,1.确定组数,2.确定组距:组距为上限与下限之差。等距数列数据分布均匀。异距数
17、列数据分布不均匀。,3.确定组限,应能把现象的不同类型划分出来 。,要考虑到数据是连续性变量还是离散型变量。,无法确定实际数据的取值范围,或者数据中存在极端数值,可采用开口组的形式。,4.确定组中值 :(上限下限)2 ,开口组,二、统计数据的展示,当统计数据比较多时,就应该制作表格或者图形进行来展示,使数据的重要特性能从表格或者图形中直观地反映出来,这样可提高分析数据和解释数据的效率。,统计表,是把统计数据用表格的形式展示出来。,类型:,按作用分,调查表,按数据所属的时间分,截面数据表时间序列表,汇总整理表,计算分析表,按分组变量的多少分,单变量分组表多变量分组表,有平行形式交叉形式,统计图,
18、统计图形通常可比统计表格更生动地描述数据。,类型:,饼图是以整个圆的360度代表全部数据的总和,按照各类组所占的百分比(频率),把一个“饼”切割为各个扇形。适用于定性数据。,50家门店按区域分组的饼图,条形图中,每一分类组表示成一个条,条的长度代表了这个组中所含数据的频数或频率。适用于定性数据。,50家门店数按区域分组的条形图,家门店按区域并按人数分组的分段比例条形图,直方图与条形图相似,是在每个分组区间上绘制一个长条形而产生的图形,它可以用来描述已表示成频数或频率的数据。适用于定量数据。,根据表2-5的等距数列,对于异距数列,以组距为宽,以频数密度为高来绘制直方图。,折线图可以在直方图基础上
19、,将每个长方形的顶端中点用折线连接而成,或用组中值与频数(或频率)求坐标点连接而成 。,根据图2-6的直方图绘制的折线图,曲线图当变量的取值非常多,变量数列的组数无限增多时,折线便趋于一条平滑的曲线,这是一种概括描述变量数列分布特征的理论曲线。,枝叶图是探索性数据分析中的一种方法,也是对一批数据进行组织整理的很有价值的一个工具,可用以了解一批数据中由所有观测值构成的数据的取值范围是如何分布的。,第三章 数据的描述性分析,本章将讨论的是数据的总量和相对关系的测度,数据的集中趋势、离散趋势及其形态的测度。,一、绝对数和相对数二、集中趋势的测定三、离散趋势的测定四、数据的形态测定,主要内容,一、绝对
20、数和相对数,(一)绝对数,绝对数(亦称总量指标)是统计资料经过汇总整理后得到的反映总体规模和水平的总和指标。,(3)是计算相对指标和平均指标的基础。,作用,概念,例如,企业的销售收入、一个地区或国家的社会总产值、国内生产总值等。,(1)反映一个国家的国情和国力,一个地区或一个企业的人力、物力、财力,(2)是进行经济核算和经济活动分析的基础,分类,按反映总体的内容分,按反映的时间状态分,按计量单位分,变量总值 单位总数,时期数时点数,实物量价值量,相对数是用两个有联系的指标进行对比的比值,可以反映现象的数量特征和数量关系,并可将现象的绝对差异抽象化,使原来不能直接相比的绝对数可以进行比较。,种类
21、,计划完成相对数,结构相对数,比较相对数,强度相对数,动态相对数,(二)相对数,概念,五种相对数指标的比较,不同时期比 较,动 态相对数注:又称发展速度,强 度相对数注:复名数有正逆指标,不同现象比较,不同总体比较,比 较相对数,同一总体中,部分与总体比 较,实际与计划比 较,结 构相对数,计划完成相对数注:有正逆指标,同一时期比较,同类现象比较,(1)正确选择对比的基数;(2)必须注意统计的可比性;(3)相对指标要与总量指标相结合。,应用原则,二、集中趋势的测定平均数,概念,表明同类现象在一定时间、地点、条件下所达到的一般水平,是总体内某个变量大小各异的观察值的代表性数值。也是对变量分布集中
22、趋势的测定。,数据集中区,变量x,常用的几种平均数,概 念 计算 公 式 特 点,优点:容易理, 便于计算 灵敏度高 稳定性好 和 缺点:易受极值影响 在偏斜分布和U形分布中,不具有代表性,1. 算术平均数( ),一个变量的所有观察值相加,再除以观察值的个数,简单:,加权:,权数解释,权数(Weighted),是分布数列中的频数或频率。对求平均数具有权衡轻重的作用,是影响平均数变动的两个因素之一(另一因素是变量值)。,(1),(2),(3),X,4,5,6,合计,频数,频率(%),10,20,10,25.0,50.0,25.0,40,100.0,X,4,5,6,合计,频数,频率(%),20,4
23、0,20,25.0,50.0,25.0,80,100.0,X,4,5,6,合计,频数,频率(%),20,10,10,50.0,25.0,25.0,80,100.0,=5,=5,=4.75,频率分布变了,均值也变。因此,严格地说,权数应指频率。,算术平均数的变形,数学上称其为调和平均数,只是用这种形式时,变量的取值不能为0。,求某种商品三种零售价格的平均价格,调和平均,价格(元),3.3,2.5,2.0,合计,销售额(元),10,10,10,30,常用的几种平均数,概 念 计算 公 式 特 点,优点:灵敏度高 受极值影响小于 和 适宜于各比率之积为总比率的变量求平均缺点:有“ 0”或负值时不能计
24、算 偶数项数列只能用正根,2. 几何平均数( ),几个变量值连乘积的n次根,简单:,加权:,概 念 计算 公 式 特 点,3. 中位数(Me),是一种位置平均数,数据按大小顺序排列,处于数据序列中间位置的数值就是中位数,上限公式:,下限公式:,优点:容易理解, 不受极值影响适宜于开口组资料和些不能用数字测定的事物缺点:灵敏度和计算功能差 间断数Me,常用的几种平均数,常用的几种平均数,概 念 计算 公 式 特 点,4. 众数(Mo),是一种位置平均数,是一批数据中出现次数最多的那个数值.通常只用于定性数据或离散型的定量数据。,上限公式:,下限公式:,优点:容易理解, 不受极值影响 缺点:灵敏度
25、和计算功能差 稳定性差 具有不唯一性,25,30,35,40,45,50,5,10,15,f(人数),月收入:元,36.11,d1,d2,55,位置平均数与算术平均数的关系,1.众数适用于所有的定性数据和定量数据 中位数适用于定性数据中的定序数据和定量数据 算术平均数只适用于定量数据,2.定量数据:若是钟形分布,三种集中趋势指标一般 都可适用。而对J形分布,反J形分布和U形分布,中位数和算术平均数没有任何意义。,3.在确定集中趋势指标的过程中,算术平均数比中位数和众数使用了更多的数据信息 。,4.对于钟形分布且数据量很大时,三种集中趋势指标有如下三种数量关系:,X,f,X,f,X,f,(对称分
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 ppt 完整 课件
链接地址:https://www.31ppt.com/p-1682401.html