《变量数列分析》PPT课件.ppt
第五章 变量数列分析,5.1 集中趋势的测定5.2 离中趋势的测定,一名统计学家遇到一位数学家,统计学家调侃数学家说道:“你们不是说若且,则吗!那么想必你若是喜欢一个女孩,那么那个女孩喜欢的男孩你也会喜欢喽!?”数学家想了一下反问道:“那么你把左手放到一锅一百度的开水中,右手放到一锅零度的冰水里想来也没事吧!因为它们平均的温度不过是五十度而已!”,统计学家与数学家,如果你的腳已經踩在爐子上,而頭卻在冰箱裡,統計學家會告訴你,平均而言,你相當舒服。,调侃统计学家,5.1 集中趋势的测定,一、集中趋势的涵义 二、平均指标的种类及计算方法,83名女生的身高,分布的集中趋势、中心数值,统计学第五章 变量数列分析,统计学第五章 变量数列分析,5.1 集中趋势的测定,一、集中趋势的涵义 二、平均指标的种类及计算方法,二、平均指标的种类及计算方法,算术平均数 调和平均数 几何平均数 中位数 众数,基本形式:,例:,直接承担者,注意区分算术平均数与强度相对数,算术平均数,统计学第五章 变量数列分析,式中:为算术平均数;为总体单位总数;为第 个单位的标志值。,算术平均数的计算方法,统计学第五章 变量数列分析,平均每人日销售额为:,算术平均数的计算方法,统计学第五章 变量数列分析,式中:为算术平均数;为第 组的次数;为组数;为第 组的标志值或组中值。,算术平均数的计算方法,统计学第五章 变量数列分析,【例】某企业某日工人的日产量资料如下:,计算该企业该日全部工人的平均日产量。,算术平均数的计算方法,统计学第五章 变量数列分析,解:,算术平均数的计算方法,统计学第五章 变量数列分析,分析:,起到权衡轻重的作用,算术平均数的计算方法,统计学第五章 变量数列分析,决定平均数的变动范围,算术平均数的计算方法,统计学第五章 变量数列分析,邱东教授对权数的定义:,统计学第五章 变量数列分析,第一,权数的数量形式可以是多种多样的,可以是绝对数,也可以是相对数;可以是结构相对数,也可以是比例相对数;可以取正数,甚至有时也可以取负数。第二,权数尽管可以以绝对数或比例相对数的形式出现,但权数的实质是结构相对数。第三,权数是用来衡量诸内部因素在总体中重要程度的,由于人们是从不同方面来把握重要程度的,因而这个定义就不是把权数仅仅限于频率和同度量因素这一狭窄的范围内。,权数是以某种数量形式对比、权衡被评价事物总体中诸因素相对重要程度的量值。,统计学第五章 变量数列分析,曾宪报在其博士学位论文统计权数论中提出了他认为“简洁性好、概括性强”、“关于权数的最新认识”的定义:,权数是衡量系统内诸要素相对重要程度的一组数值。,统计学第五章 变量数列分析,权数与加权,统计学第五章 变量数列分析,权数与加权,统计学第五章 变量数列分析,权数与加权,统计学第五章 变量数列分析,权数与加权,算术平均数的计算取决于变量值和权数的共同作用:变量值决定平均数的范围;权数则决定平均数的位置.,变量值与其算术平均数的离差之和衡等于零,即:变量值与其算术平均数的离差平方和为最小,即:,算术平均数的主要数学性质,统计学第五章 变量数列分析,离差的概念,-1,-1,-2,1,3,统计学第五章 变量数列分析,统计学第五章 变量数列分析,思考题,比特啤酒公司雇用了468名员工,其中有56名管理人员,130名行政和技术人员,其余282人是工人。这三组人的周平均工资分别是500英镑、300英镑和200英镑。财务主管希望计算全体员工的平均工资。,?,统计学第五章 变量数列分析,正确的计算方法,二、平均指标的种类及计算方法,算术平均数 调和平均数 几何平均数 中位数 众数,【例】设X=(2,4,6,8),则其调和平均数可由定义计算如下:,再求算术平均数:,求各标志值的倒数:,,再求倒数:,是总体各单位标志值倒数的算术平均数的倒数,又叫倒数平均数,调和平均数harmean(harmonic mean),统计学第五章 变量数列分析,A.简单调和平均数,适用于总体资料未经分组整理、尚为原始资料的情况,式中:为调和平均数;为变量值 的个数;为第 个变量值。,调和平均数的计算方法,统计学第五章 变量数列分析,B.加权调和平均数,适用于总体资料经过分组整理形成变量数列的情况,式中:为第 组的变量值;为第 组的标志总量。,调和平均数的计算方法,统计学第五章 变量数列分析,当已知各组变量值和标志总量时,作为算术平均数的变形使用。,因为:,调和平均数的应用,统计学第五章 变量数列分析,统计学第五章 变量数列分析,调和平均数的用途:作为独立意义上的平均数使用基本上没有用途。作为算术平均数的变形使用是其常见的用法。但此时已经不能称为调和平均数,只能称其为调和平均方法。,计算该企业该日全部工人的平均日产量。,调和平均数的应用,统计学第五章 变量数列分析,即该企业该日全部工人的平均日产量为12.1375件。,调和平均数的应用,统计学第五章 变量数列分析,求解比值的平均数的方法,由于比值(平均数或相对数)不能直接相加,求解比值的平均数时,需将其还原为构成比值的分子、分母原值总计进行对比,设比值,则有:,统计学第五章 变量数列分析,求解比值的平均数的方法,统计学第五章 变量数列分析,【例A】某季度某工业公司18个工业企业产值计划完成情况如下:,计算该公司该季度的平均计划完成程度。,求解比值的平均数的方法,统计学第五章 变量数列分析,【例A】某季度某工业公司18个工业企业产值计划完成情况如下:,计算该公司该季度的平均计划完成程度。,求解比值的平均数的方法,应采用加权算术平均数公式计算,统计学第五章 变量数列分析,【例B】某季度某工业公司18个工业企业产值计划完成情况如下(按计划完成程度分组):,计算该公司该季度的平均计划完成程度。,求解比值的平均数的方法,统计学第五章 变量数列分析,【例B】某季度某工业公司18个工业企业产值计划完成情况如下(按计划完成程度分组):,计算该公司该季度的平均计划完成程度。,求解比值的平均数的方法,应采用平均数的基本公式计算,统计学第五章 变量数列分析,二、平均指标的种类及计算方法,算术平均数 调和平均数 几何平均数 中位数 众数,统计学第五章 变量数列分析,式中:为几何平均数;为变量值的个数;为第 个变量值。,几何平均数的计算方法,统计学第五章 变量数列分析,【例】某流水生产线有前后衔接的五道工序。某日各工序产品的合格率分别为95、92、90、85、80,求整个流水生产线产品的平均合格率。,分析:,设最初投产100A个单位,则第一道工序的合格品为100A0.95;第二道工序的合格品为(100A0.95)0.92;第五道工序的合格品为(100A0.950.920.900.85)0.80;,统计学第五章 变量数列分析,因该流水线的最终合格品即为第五道工序的合格品,故该流水线总的合格品应为 100A0.950.920.900.850.80;则该流水线产品总的合格率为:,即该流水线总的合格率等于各工序合格率的连乘积,符合几何平均数的适用条件,故需采用几何平均法计算。,统计学第五章 变量数列分析,因该流水线的最终合格品即为第五道工序的合格品,故该流水线总的合格品应为 100A0.950.920.900.850.80;则该流水线产品总的合格率为:,即该流水线总的合格率等于各工序合格率的连乘积,符合几何平均数的适用条件,故需采用几何平均法计算。,统计学第五章 变量数列分析,思考,若上题中不是由五道连续作业的工序组成的流水生产线,而是五个独立作业的车间,且各车间的合格率同前,又假定各车间的产量相等均为100件,求该企业的平均合格率。,几何平均数的计算方法,统计学第五章 变量数列分析,因各车间彼此独立作业,所以有 第一车间的合格品为:1000.95;第二车间的合格品为:1000.92;第五车间的合格品为:1000.80。则该企业全部合格品应为各车间合格品的总和,即总合格品=1000.95+1000.80,几何平均数的计算方法,分析:,统计学第五章 变量数列分析,不再符合几何平均数的适用条件,需按照求解比值的平均数的方法计算。又因为,应采用加权算术平均数公式计算,即,统计学第五章 变量数列分析,式中:为几何平均数;为第 组的次数;为组数;为第 组的标志值或组中值。,几何平均数的计算方法,统计学第五章 变量数列分析,【例】某金融机构以复利计息。近12年来的年利率有4年为3,2年为5,2年为8,3年为10,1年为15。求平均年利率。,设本金为V,则至各年末的本利和应为:,第1年末的本利和为:,第2年末的本利和为:,第12年末的本利和为:,分析:,统计学第五章 变量数列分析,则该笔本金12年总的本利率为:,即12年总本利率等于各年本利率的连乘积,符合几何平均数的适用条件,故计算平均年本利率应采用几何平均法。,解:,统计学第五章 变量数列分析,几何平均数的计算方法,分析,第1年末的应得利息为:,第2年末的应得利息为:,第12年末的应得利息为:,统计学第五章 变量数列分析,则该笔本金12年应得的利息总和为:=V(0.034+0.052+0.151),这里的利息率或本利率不再符合几何平均数的适用条件,需按照求解比值的平均数的方法计算。因为,假定本金为V,统计学第五章 变量数列分析,所以,应采用加权算术平均数公式计算平均年利息率,即:,解:,统计学第五章 变量数列分析,(比较:按复利计息时的平均年利率为6.85),统计学第五章 变量数列分析,就同一资料计算时,有:,统计学第五章 变量数列分析,设 x 取值为:、10,是否为比率或速度,各个比率或速度的连乘积是否等于总比率或总速度,是否为其他比值,算术平均法,求解比值的平均数的方法,数值平均数计算公式的选用顺序,指标,统计学第五章 变量数列分析,二、平均指标的种类及计算方法,算术平均数 调和平均数 几何平均数 中位数 众数,不受极端数值的影响,在总体标志值差异很大时,具有较强的代表性。,中位数的作用:,二、平均指标的种类及计算方法,统计学第五章 变量数列分析,如果统计资料中含有异常的或极端的数据,就有可能得到非典型的甚至可能产生误导的平均数,这时使用中位数来度量集中趋势比较合适。,比如有5笔付款:9元,10元,10元,11元,60元 平均付款为100/5=20元。很明显,这并不是一个好的代表值,而中位数10元是一个更好的代表值。,中位数的位次为:,即第3个单位的标志值就是中位数,中位数的确定,(未分组资料),统计学第五章 变量数列分析,中位数的位次为:,中位数应为第3和第4个单位标志值的算术平均数,即,中位数的确定,(未分组资料),统计学第五章 变量数列分析,【例C】某企业某日工人的日产量资料如下:,计算该企业该日全部工人日产量的中位数。,中位数的位次:,中位数的确定,(单值数列),统计学第五章 变量数列分析,中位数的确定,(组距数列),【例D】某车间50名工人月产量的资料如下:,计算该车间工人月产量的中位数。,统计学第五章 变量数列分析,中位数的确定,(组距数列),共 个单位,共 个单位,共 个单位,共 个单位,L,U,中位数组,组距为d,共 个单位,假定该组内的单位呈均匀分布,中位数下限公式为,统计学第五章 变量数列分析,二、平均指标的种类及计算方法,算术平均数 调和平均数 几何平均数 中位数 众数,二、平均指标的种类及计算方法,统计学第五章 变量数列分析,有时众数是一个合适的代表值,比如在服装行业中,生产商、批发商和零售商在做有关生产或存货的决策时,更感兴趣的是最普遍的尺寸而不是平均尺寸。,【例A】已知某企业某日工人的日产量资料如下:,众数的确定,(单值数列),计算该企业该日全部工人日产量的众数。,统计学第五章 变量数列分析,众数的确定,(组距数列),【例B】某车间50名工人月产量的资料如下:,计算该车间工人月产量的众数。,众数的原理及应用,83名女生身高原始数据,83名女生身高组距数列,统计学第五章 变量数列分析,当数据分布存在明显的集中趋势,且有显著的极端值时,适合使用众数;当数据分布的集中趋势不明显或存在两个以上分布中心时,不适合使用众数(前者无众数,后者为双众数或多众数,等于没有众数)。,众数的原理及应用,统计学第五章 变量数列分析,统计学第五章 变量数列分析,没有突出地集中在某个年份,统计学第五章 变量数列分析,出现了两个明显的分布中心,统计学第五章 变量数列分析,形状 Shape,表明数据是如何分布的偏态Skew 与 对称Symmetry左偏:均值中位数对称(零偏度):均值=中位数,右偏的,左偏的,对称的,均值,=,中位数,=,众数,均值,中位数,众数,众数,中位数,均值,统计学第五章 变量数列分析,位置测度的一种常用方法:百分位数(Percentile),概念:第p个百分位数是这样的数值:至少有p%个数值跟它一样大或比它小;至少有(100p)%个数值跟它一样大或比它大。,例如,一个考生入学考试的口语成绩是54分,对应第70个百分位数,我们就可以知道大约有70%的考生成绩比他低,或者说大约有30%的考生成绩比他高。,统计学第五章 变量数列分析,位置测度的另一种常用方法:四分位数(Quartile),通常将数据分成四个部分是合乎需要的,每一部分大约包括1/4或25%的数据,分位点称为四分位数。,统计学第五章 变量数列分析,位置测度的另一种常用方法:四分位数(Quartile),25%,25%,25%,25%,Q1,Q2,Q3,把排序数据等分为四个区间Quarters,第五章 变量数列分析,5.1 集中趋势的测定5.2 离中趋势的测定,单位:分,某班三名同学三门课程的成绩如下:,请比较三名同学学习成绩的差异。,统计学第五章 变量数列分析,集中趋势弱、离中趋势强,集中趋势强、离中趋势弱,统计学第五章 变量数列分析,5.2 离中趋势的测定,一、离中趋势的涵义 二、标志变异指标的种类及计算三、是非标志的标准差及方差,变异指标值越大,平均指标的代表性越小;反之,平均指标的代表性越大,统计学第五章 变量数列分析,测定离中趋势的意义,用来衡量和比较平均数代表性的大小;用来反映社会经济活动过程的均衡性和节奏性;用来测定变量数列次数分布较正态分布的偏离程度。,统计学第五章 变量数列分析,5.2 离中趋势的测定,一、离中趋势的涵义 二、标志变异指标的种类及计算三、是非标志的标准差及方差,标志变异指标的种类,统计学第五章 变量数列分析,统计学第五章 变量数列分析,【例B】某季度某工业公司18个工业企业产值计划完成情况如下:,计算该公司该季度计划完成程度的全距。,统计学第五章 变量数列分析,优点:计算方法简单、易懂;缺点:易受极端数值的影响,不能全面反映所有标志值差异大小及分布状况,准确程度差,往往应用于生产过程的质量控制中,全距的特点,统计学第五章 变量数列分析,简单平均差适用于未分组资料,计算公式:,统计学第五章 变量数列分析,【例A】某售货小组5个人,某天的销售额分别为440元、480元、520元、600元、750元,求该售货小组销售额的平均差。,解:,即该售货小组5个人销售额的平均差为93.6元。,统计学第五章 变量数列分析,加权平均差适用于分组资料,平均差的计算公式,统计学第五章 变量数列分析,【例B】计算下表中某公司职工月工资的平均差。,统计学第五章 变量数列分析,解:,即该公司职工月工资的平均差为138.95元。,统计学第五章 变量数列分析,优点:不易受极端数值的影响,能综合反映全部单位标志值的实际差异程度;缺点:用绝对值的形式消除各标志值与算术平均数离差的正负值问题,不便于作数学处理和参与统计分析运算。,平均差的特点,一般情况下都是通过计算另一种标志变异指标标准差,来反映总体内部各单位标志值的差异状况,统计学第五章 变量数列分析,简单标准差适用于未分组资料,计算公式:,统计学第五章 变量数列分析,【例A】某售货小组5个人,某天的销售额分别为440元、480元、520元、600元、750元,求该售货小组销售额的标准差。,解:,(比较:其销售额的平均差为93.6元),即该售货小组销售额的标准差为109.62元。,统计学第五章 变量数列分析,加权标准差适用于分组资料,标准差的计算公式,统计学第五章 变量数列分析,【例B】计算下表中某公司职工月工资的标准差。,统计学第五章 变量数列分析,解:,(比较:其工资的平均差为138.95元),即该公司职工月工资的标准差为167.9元。,统计学第五章 变量数列分析,标准差的特点,不易受极端数值的影响,能综合反映全部单位标志值的实际差异程度;用平方的方法消除各标志值与算术平均数离差的正负值问题,可方便地用于数学处理和统计分析运算.,统计学第五章 变量数列分析,由同一资料计算的标准差的结果一般要略大于平均差。,标准差的简捷计算,统计学第五章 变量数列分析,测定标志变异度的绝对量指标(与原变量值名数相同),测定标志变异度的相对量指标(表现为无名数),全距,平均差,标准差,全距系数,平均差系数,标准差系数,标志变异指标的种类,统计学第五章 变量数列分析,可比,统计学第五章 变量数列分析,身高的差异水平:cm,体重的差异水平:kg,可比,统计学第五章 变量数列分析,变异系数指标,统计学第五章 变量数列分析,【例】某年级一、二两班某门课的平均成绩分别为82分和76分,其成绩的标准差分别为15.6分和14.8分,比较两班平均成绩代表性的大小。,解:,一班成绩的标准差系数为:,二班成绩的标准差系数为:,因为,所以一班平均成绩的代表性比二班大。,统计学第五章 变量数列分析,5.2 离中趋势的测定,一、离中趋势的涵义 二、标志变异指标的种类及计算三、是非标志的标准差及方差,是非标志总体,为研究是非标志总体的数量特征,令,统计学第五章 变量数列分析,是非标志总体的指标,具有某种标志表现的单位数所占的成数,不具有某种标志表现的单位数所占的成数,统计学第五章 变量数列分析,是非标志总体的指标,均值,标准差,统计学第五章 变量数列分析,是非标志总体的指标,方差,标准差系数,统计学第五章 变量数列分析,【例】某厂某月份生产了400件产品,其中合格品380件,不合格品20件。求产品质量分布的集中趋势与离中趋势。,是非标志总体的指标,解:,统计学第五章 变量数列分析,