统计学基础知识与简单应用课件.ppt
第4章 统计学基础及简单应用,2,1 统计学基本概念,1 频率分布及其图形假设某商店在10天内每天销售的啤酒数为36、34、35、36、35、35、33、35、36、37。为分析啤酒每天销量的分布,可依据每天啤酒销售量的值,将啤酒的销量分成几组。如32.534.5、34.536.5和36.537.5三组,再分别统计各组的频数。第一组包括销售量33、34,频数为2,频率为2/10。,3,1 统计学基本概念,2 组距每组的上下限之差称为组距。每组的上下限的平均值称为组中心。3 直方图和频数多边形把组距作为横坐标,频数作为纵坐标,在每一组上竖起一个长方形,这样的图形称为直方图。把每个长方形的顶部的中心依次用折线连起来,折线所围的多边形称为频数多边形。,4,1 统计学基本概念,4 累积频数和累积频率根据统计出的频数分布,把相应的组频数相加,称为累积频数。把对应的频率相加,称为累积频率。5 累积频率分布图和累积频率多边形图以组距为横坐标,累积频率为纵坐标,在每组上竖起一个长方形,其底长等于组距,高等于累积频率,称为累积频率分布图;用折线连接各个长方形的中点,得到累积频率多边形图。,5,1 统计学基本概念,2 中心位置特征值:平均数、中位数和众数均值:数据的算术平均值,中位数:用于表示数据的中间位置。将数据按照大小排列,然后取位于中间的一个,即为中位数。当数据个数为奇数时,中位数为位置居中的一个;当数据个数为偶数时,中位数为中间位置两个数的平均值。,6,1 统计学基本概念,众数:表示数据的中间位置特征,一般为一组数据中频数最大的那个数。几何平均数:n个变量值连乘积的n次方根,主要用于现象的总比率是若干比率的连乘积或现象的总发展速度是各个时期发展速度的连乘积的时候。,某流水作业的装配分三道工序,第一道工序的产品合格率为98%,第二道工序的产品合格率为93%,第三道工序的产品合格率为89%。求各工序的平均产品合格率?,7,1 统计学基本概念,调和平均数:各个标志值倒数的算术平均数的倒数,又称为倒数平均数。,有甲、乙、丙三种产品,其价格分别是30元、40元、50元,现各购进1万元的商品,问商品的平均价格是多少。,8,1 统计学基本概念,3 变异程度1 极差:最大值与最小值之差2 中间位差:极差在一定程度上描述了数据的变异程度,但它忽略了中间的所有数据,并受到最大值和最小值的过大影响。为了排除极值的过大影响,可以排除两端的一些数据,只取中间的一部分数据的极差。这部分数据的极差称为中间位差。中间位差以其所包含数据的百分率命名。例如70%中间位差就是指除去前面和后面各15%的数据后,所余中间数据的极差。,9,1 统计学基本概念,3 平均离差:表示各个数据离开它们的中心位置的平均距离。,10,1 统计学基本概念,4 方差和标准差是两个比较理想的描述数据变异程度的特征值,设一个样本的数据容量为n,则样本方差为:,标准差,11,1 统计学基本概念,5 总体平均值和总体标准差,12,1 统计学基本概念,6 分位数若把一批已经按大小顺序排列起来的数据划分成一特定数目的组数,每组内含有相同数目的数据,则此时分割的数据称为分位数。例如,百分位数就是把数据分成100组,每组内含有相同数目的数据。第90个百分位数,就是指在这一数据之下有90%的数据,在它之上有10%的数据。十分位数和四分位数就是把数据分成10组和4组,在每组中含有相同数目的数据。第三个四分位数是这样的一个数据:有3/4的数据在它前面,有1/4的数据在它后面。,13,1 统计学基本概念,7 偏度如果一个分布在中位数左右两侧是形状对称,则该分布是对称的。一般情况下,对称分布的平均数、中位数和众数都相等,但有些分布不是对称的。分布的对称性可用偏度来度量。偏度定义:,14,1 统计学基本概念,8 峰度用于描述分布形状的平坦状况,其定义为:通常情况下,若分布形状陡峭,则峰度较大;若分布平坦,则峰度较小。,15,1 统计学基本概念,9 变异系数标准差S描述的是分布的绝对变异,其中和计算的单位有关。采用标准差来比较两组不同单位的数据的变异程度是不合适的。这时应采用无单位的变异系数来比较,其定义为:,16,2 SPSS统计描述,例2-1学生成绩中,分性别、班级计算平均数、标准差等。Analyze-Descriptive Statistics-Descriptive需多组数据分类汇总后再进行计算Analyze-Reports-Case Summaries项,17,2 SPSS统计描述,统计结果,18,2 SPSS统计描述,在抽样调查中,存在着抽样误差,标准误是衡量抽样误差大小的统计量,其值小,说明样本平均数与总体平均数较接近;反之,两者的差异大。,标准差和标准误是不同的两个概念,前者说明数据与其平均数的偏离程度,后者说明样本平均数与总体平均数的接近程度。标准误 Std.Error of Mean 标准差 Standard Deviation,19,2 SPSS统计描述,Kurtosis:峰度及其标准误。若变量服从正态分布,则其值为0,大于0时比正态分布峰高,小于0时比正态分布峰低。Skewness:偏度及其标准误,若变量服从正态分布,则其值为0。大于0时为正偏或右偏,小于0时为负偏或左偏。,20,2 SPSS统计描述,次数分布(频数分布)次数分布,是指总体或样本按随机变量(数据)大小次序在出现频率上的排列。一般采用次数分布表、次数分布直方图或次数分布曲线来表示。例3-1,现有50名学生的成绩,原始成绩如表13.1所表示,统计次数分布情况。Analyze-Descriptive-Frequencies项进行频率统计,21,2 SPSS统计描述,次数分布结果见例3-1.spoCharts定义Bar charts:条形图Pie Charts:饼状图Histograms:直方图,With normal curve,图中带有正态曲线以例2-1为例,计算次数分布情况。,22,2 SPSS统计描述,次数分布,20:有20%的数据小于65分。60:有60%的数据小于83分。80:有80%的数据小于88分。,23,2 SPSS统计描述,正态分布,24,2 SPSS统计描述,由图中可看出,变量基本服从正态分布。正态分布是理论研究与应用中十分重要的一种分布,许多变量都服从正态分布,如考试成绩、某些心理、生理指标等。SPSS软件给出了判断某个变量是否服从正态分布的方法,可以利用这一点做某些判断。,25,2 SPSS统计描述,Frequencies过程可以产生详细的频数表,还可以按要求给出某百分位点的数值以及常用的条图、饼图等。如果想用Frequencies过程得到我们所熟悉的频数表,则先用recode过程产生一个新变量来代表所需的各组段。,26,2 SPSS统计描述,Frequencies过程某地101例健康男子血清总胆固醇测定结果如下,请绘制频数表、直方图,计算均数、标准差、变异系数、中位数M、P2.5,P97.5的数值。数据文件为dguchun.sav,27,2 SPSS统计描述,Frequencies过程某地101例健康男子血清总胆固醇测定结果如下,请绘制频数表、直方图,计算均数、标准差、变异系数、中位数M、P2.5,P97.5的数值。数据文件为dguchun.sav,28,2 SPSS统计描述,Descriptives过程对变量进行描述性统计分析,计算并列出一系列相应的统计指标。,29,2 SPSS统计描述,例某市1995年110名7岁男童的身高资料已按频数表格式输入,变量groupmid代表所在组段的组中值,freq代表组段频数,请求出该资料的均数、标准差、中位数和四分位数间距。High.sav首先利用weight cases加权,然后用Frequencies过程求出。,30,2 SPSS统计描述,正态分布正态分布曲线的形状和位置由平均分 和标准差S所决定。平均分 对应于单峰位置,越大,曲线越往右移动。标准差S越大,曲线的单峰位置越低,宽度越大,显得越“胖”;S越小,曲线的高度越高,宽度越小,显得越“瘦”。,31,2 SPSS统计描述,正态分布在正态分布曲线图上,正态曲线以下,以S为距离单位所包括的面积是按一定比例分配的,若将正态曲线底边从-3S到3S分成四等分,每等分距离为1.5S,则每距离间隔之间所包括的面积比例如下所示:,32,2 SPSS统计描述,正态分布,33,2 SPSS统计描述,正态分布,34,2 SPSS统计描述,正态分布利用正态分布曲线的性质,可以得到划分不同学习水平等级的界限和学生人数比例的理论数值。将理论数值与实际数值进行比较,可以对学生的实际情况进行判断。,35,2 SPSS统计描述,-S平面特征数据分析模型1象限,平均水平高,但分离度大,存在低分生2象限,平均水平低,且分离度大,存在高分生3 象限,平均水平低,且集中,属差劣状态。4 象限,平均水平高,且集中,属优良状态。,36,2 SPSS统计描述,例题 P342,例13-31 定义变量,输入数据2 数据排序Data-Sort Cases3 计算平均分与标准差Analyze-Descriptive Statistic-Descriptives,37,2 SPSS统计描述,例题 P342,例13-34 分组统计平均分和标准差Analyze-Reports-Case Summaries,38,2 SPSS统计描述,例题 P342,例13-35 次数分布表的形成利用例3-1的50个学生的成绩形成次数分布表转换数据,生成新变量:Transform-Recode Into Different Variable统计分析次数分布:Analyze-Descriptive Statistic-Frequencies,39,2 SPSS统计描述,例题 P342,例13-3,40,3 SPSS中的Reports,OLAP Cubes过程:用于按指定的范围对一个或多个变量做出描述,可以得到一些常用的描述统计量。其特点是可以分层变化不同水平的组合进行变量的描述。Case Summaries过程:对记录进行汇总,与OLAP Cubes过程相比,不仅可以计算描述统计量,还可以分组进行汇总,并能够给出详细的记录列表。Report Summaries in Rows/Columns过程:按行和列输出结果,可进行精确定义。,41,3 SPSS中的Reports,1 OLAP Cubes过程在线分析处理Online Analytical Processing的缩写,用快速简单的方式提供对变量的动态描述和分析。对cars.sav中的变量weight按变量origin和cylinder的有效取值范围计算均数和标准差。,42,3 SPSS中的Reports,1 OLAP Cubes过程,需要进行分析的变量,分组变量:不会同时输出分组变量各种水平组合下的分析结果,而是用多层表的形式出现,默认只显示合计情况。同时,分组变量也用于确定进入分析的记录范围,两个变量中均为缺失的记录可进入分析。,以例2-1中的铁饼、标枪进行OLAP Cubes分析。,43,3 SPSS中的Reports,2 Case Summaries过程按指定分组统计量不同水平的交叉组合对变量进行记录列表,并计算相应的统计量。对cars.sav中的变量horse按不同产地及汽缸数计算均数、中位数及标准差。,44,3 SPSS中的Reports,3 Report Summaries in Rows过程生成复杂报表对cars.sav按不同产地和汽缸数计算汽车功率horse以及汽车加速到60mph所需时间accel的均数及标准差,