数据的概括性度量 (2).ppt
《数据的概括性度量 (2).ppt》由会员分享,可在线阅读,更多相关《数据的概括性度量 (2).ppt(123页珍藏版)》请在三一办公上搜索。
1、用统计量描述数据,第一节 水平的度量 第二节 差异的度量第三节 分布形状的度量,学习目标,1.水平的度量各测度值的计算方法2.水平的度量不同测度值的特点和应用场合3.差异的度量各测度值的计算方法4.差异的度量不同测度值的特点和应用场合5.分布形状的度量方法6.用Excel计算描述统计量并进行分析,数据分布的特征,数据分布的特征和测度,第一节 水平的度量,一.分类数据:众数二.顺序数据:中位数和分位数三.数值型数据:均值四.众数、中位数和均值的比较,数据特征分布的和测度(本节位置),水平的度量集中趋势,一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据一般水平的代表值或中心值不同类型的数
2、据用不同的集中趋势测度值,一、分类数据:众数(Mode),众数,集中趋势的测度值之一出现次数最多的变量值不受极端值的影响可能没有众数或有几个众数主要用于分类数据,也可用于顺序数据和数值型数据,Types of Mode 众数的种类,No mode无众数data:10 5 9 12 6 8Mode:一个众数data:6 5 9 8 5 5Bimodal:双众数data:25 28 28 36 42 42Multimodal:多众数 data:32 32 32 33 34 34 34 35 36 36 36,The modal class众数组,For large data sets the mo
3、dal class is much more relevant than the a single-value mode.对于大的数据集来说,众数组比单个众数更合适。,有时众数是一个合适的代表值,比如在服装行业中,生产商、批发商和零售商在做有关生产或存货的决策时,更感兴趣的是最普遍的尺寸而不是平均尺寸。,分类数据的众数,【例】计算众数,解:这里的变量为“饮料类型”,这是个分类变量,不同类型的饮料就是变量值。我们看到,在所调查的50人当中,喝“碳酸饮料”的人数最多,为15人,占总被调查人数的30%,因此众数为“碳酸饮料”这一品牌,即 Mo碳酸饮料,顺序数据的众数,【例】计算众数,解:这里的数据为
4、顺序数据。变量为“回答类别”。甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即 Mo不满意,数值型分组数据的众数,1.众数的值与相邻两组频数的分布有关,4.该公式假定众数组的频数在众数组内均匀分布,2.相邻两组的频数相等时,众数组的组中值即为众数,3.相邻两组的频数不相等时,众数采用下列近似公式计算,117 122 124 129 139 107 117 130 122 125108 131 125 117 122 133 126 122 118 108110 118 123 126 133 134 127 123 118 112112 134 127 123
5、119 113 120 123 127 135137 114 120 128 124 115 139 128 124 121,【例】某生产车间50名工人日加工零件数如下(单位:个)。试采用单变量值对数据进行分组。,数值型分组数据的众数,数值型分组数据的众数,【例】计算50名工人日加工零件数的众数,二、顺序数据:中位数和分位数,中位数 median,集中趋势的测度值之一排序后处于中间位置上的值,不受极端值的影响主要用于顺序数据,也可用数值型数据,但不能用于定类数据各变量值与中位数的离差绝对值之和最小,即,中位数(位置的确定),未分组数据:,组距分组数据:,未分组数据的中位数(计算公式),顺序数据
6、的中位数,【例】计算甲城市家庭对住房满意状况评价的中位数,解:中位数的位置为:300/2150从累计频数看,中位数的在“一般”这一组别中。因此 Me一般,数值型未分组数据的中位数(5个数据的算例),原始数据:24 22 21 26 20排 序:20 21 22 24 26位 置:1 2 3 4 5,中位数 22,数值型未分组数据的中位数(6个数据的算例),原始数据:10 5 9 12 6 8排 序:5 6 8 9 10 12位 置:1 2 3 4 5 6,根据位置公式确定中位数所在的组采用下列近似公式计算:,3.该公式假定中位数组的频数在该组内均匀分布,数值型分组数据的中位数,数值型分组数据的
7、中位数,【例】计算50 名工人日加工零件数的中位数,四分位数(Quartiles),1.集中趋势的测度值之一2.排序后处于25%和75%位置上的值,3.不受极端值的影响4.主要用于定序数据,也可用于数值型数据,但不能用于定类数据,四分位数(位置的确定),未分组数据:,组距分组数据:,顺序数据的四分位数,【例】计算甲城市家庭对住房满意状况评价的四分位数,解:下四分位数(QL)的位置为:QL位置(300)/475 上四分位数(QL)的位置为:QU位置(3300)/4225从累计频数看,QL在“不满意”这一组别中;QU在“一般”这一组别中。因此 QL 不满意 QU 一般,数值型未分组数据的四分位数(
8、7个数据的算例),原始数据:23 21 30 32 28 25 26排 序:21 23 25 26 28 30 32位 置:1 2 3 4 5 6 7,N+1,QL=23,QU=30,数值型未分组数据的四分位数(6个数据的算例),原始数据:23 2130 28 25 26排 序:21 23 25 26 28 30位 置:1 2 34 5 6,QL=21+0.75(23-21)=22.5,QU=28+0.25(30-28)=28.5,数值型分组数据的四分位数(计算公式),下四分位数:,数值型分组数据的四分位数,QL位置50/412.5,QU位置350/437.5,【例】计算50 名工人日加工零件
9、数的四分位数,一名统计学家遇到一位数学家,统计学家调侃数学家说道:“你们不是说若且,则吗!那么想必你若是喜欢一个女孩,那么那个女孩喜欢的男孩你也会喜欢喽!?”数学家想了一下反问道:“那么你把左手放到一锅一百度的开水中,右手放到一锅零度的冰水里想来也没事吧!因为它们平均的温度不过是五十度而已!”,统计学家与数学家,如果你的脚已经踩在炉子上,而头却在冰箱里,统计学家会告诉你,平均而言,你相当舒服。,调侃统计学家,三、定距和定比数据(数值型数据):均值(Mean),均值,1.集中趋势的测度值之一2.最常用的测度值3.一组数据的均衡点所在4.易受极端值的影响5.用于数值型数据,不能用于定类数据和定序数
10、据,均值(计算公式),设一组数据为:x1,x2,xN 简单均值的计算公式为,设分组后的数据为:M1,M2,MN相应的频数为:f1,f2,fN加权均值的计算公式为,简单均值 Simple Mean,原始数据:10591368,加权均值(Weighted Mean),【例】计算电脑销售额的平均数见Excel,权数与加权,权数与加权,权数与加权,权数与加权,权数与加权,算术平均数的计算取决于变量值和权数的共同作用:变量值决定平均数的范围;权数则决定平均数的位置,均值(数学性质),1.各变量值与均值的离差之和等于零,2.各变量值与均值的离差平方和最小,离差的概念,-1,-1,-2,1,3,调和平均数(
11、Harmonic Mean),1.集中趋势的测度值之一2.均值的另一种表现形式3.易受极端值的影响4.不能用于定类数据和定序数据,原来只是计算时使用了不同的数据!,例:小王早上买了3元钱的菜,1元的白菜,1元的芹菜、1元的菠菜,其中白菜0.5元/斤,菠菜0.8元/斤,芹菜0.9元/斤,问平均每斤的价格?,解:,解:,例:晚上白菜0.3元/斤,菠菜0.5元/斤,芹菜0.6元/斤,小王买了2元白菜,3元菠菜,4元芹菜,问平均每斤菜的价格?,【例】设X=(2,4,6,8),则计算其调和平均数,是总体各单位标志值倒数的算术平均数的倒数,又叫倒数平均数,调和平均数,A.简单调和平均数,适用于总体资料未经
12、分组整理、尚为原始资料的情况,调和平均数的计算方法,B.加权调和平均数,适用于总体资料经过分组整理形成变量数列的情况,调和平均数的计算方法,当己知各组变量值和标志总量时,作为算术平均数的变形使用。,调和平均数的应用,若只知 x 和xf,而f 未知,则不能使用加权算术平均方式,只能使用其变形即加权调和平均方式。,苹果 单价 购买量 总金额 品种(元)(公斤)(元)红富士 2 3 6青香蕉 1.8 5 9,计算该企业该日全部工人的平均日产量。,调和平均数的应用,几何平均数(Geometric Mean),1.集中趋势的测度值之一2.N 个变量值乘积的 N 次方根3.适用于特殊的数据4.主要用于计算
13、平均发展速度5.计算公式为,6.可看作是均值的一种变形,几何平均数,【例】一位投资者持有一种股票,2005年、2006年、2007年和2008年收益率分别为4.5%、2.0%、3.5%、5.4%。计算该投资者在这四年内的平均收益率。,平均收益率103.84%-1=3.84%,【例】某金融机构以复利计息。近12年来的年利率有4年为3,2年为5,2年为8,3年为10,1年为15。求平均年利率。,数值平均数均源于一个通式,四、众数、中位数和均值的比较,众数、中位数和均值的关系,众数、中位数、平均数的特点和应用,众数不受极端值影响具有不惟一性数据分布偏斜程度较大时应用中位数不受极端值影响数据分布偏斜程
14、度较大时应用平均数易受极端值影响数学性质优良数据对称分布或接近对称分布时应用,数据类型与集中趋势测度值,第二节 差异的度量,一.分类数据:异众比率二.顺序数据:四分位差三.数值型数据:方差及标准差四.相对离散程度:离散系数,差异的度量(离散程度)(离中趋势),数据分布的另一个重要特征离中趋势的各测度值是对数据离散程度所作的描述反映各变量值远离其中心值的程度,因此也称为离中趋势从另一个侧面说明了集中趋势测度值的代表程度不同类型的数据有不同的离散程度测度值,数据的特征和测度(本节位置),一、分类数据:异众比率,异众比率(Variation Ratio),1.离散程度的测度值之一2.非众数组的频数占
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据的概括性度量 2 数据 概括性 度量
链接地址:https://www.31ppt.com/p-6296747.html