《描述统计分析》PPT课件.ppt

资源ID：5010625 资源大小：448KB 全文页数：49页
资源格式： PPT 下载积分：15金币

快捷下载

会员登录下载

三方登录下载：

下载资源需要15金币

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

加入VIP免费专享

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

《描述统计分析》PPT课件.ppt

第3章描述统计分析,利用正确的统计方法对数据进行适当的整理和显示，描述探索出数据内在数据规律性，掌握统计思想，培养学生学习统计学的兴趣，为继续学习推论统计方法及应用各种统计方法解决实际问题打下必要而坚实的基础。,3.1 基本统计分析概述一、基本统计分析包括的内容频度分析Frequencies统计描述Descriptives探索分析Explore多维频数分布交叉列联表Crosstable摘要报告表Summarize行形式的输出报告Report Summaries in Row列形式的输出报告Report Summaries in Column二、统计分析的特殊图形箱图Boxplot 茎叶图Stem-and Leaf Plot,集中趋势组（central Tendency）：平均值 Mean中位数 Median众数 Mode求和 Sum离中趋势组（dispersion）:标准差 Std.deviation方差 Variance跨度 Range最小值 Minimum最大值 Maximum平均值的标准误 S.E.Mean,3.2单变量的统计描述一、频数分布:某变量各种取值出现的次数或频数。二、集中趋势的度量平均值：Mean中位数：Median表示位于数据数列中心位置的那一项的大小。奇个数：第（n+1）/2个数的值偶个数：第n/2与第(n/2)+1两个数的均值众数：Mode数据中重复出现次数最多的数值。,三、离中趋势的度量描述数据个性方面的特征，即数据的分散程度或差异程度。全距(range)：最大值与最小值之差。方差（Variance）:标准差（Standard deviation）:方差的平方根。,偏(斜)度（Skewness）:描述分布偏离正态分布的程度，即偏离对称的程度。Skewness Skewness0:正偏离 Skewness0 分布集中趋势强 Kurtosis0 分布离心趋势强变异系数：CV=（S/M）%S：标准差 M：平均值,标准分数：Z分数以标准差为单位表示一个分数在群体中所处的相对位置。百分位数和N等分百分位数(percetile Ntile):百分位数和N等分百分位数能够度量全部观测值对中心位置的平均偏差，从而对数据的离散性做出最综合的说明。百分位数的数值是给出对应不同百分比的数值，例如：50%对应85，表明50%的样本取值在85及其以下。N等分百分位数是将总体样本数等份成N等份，产生的N-1个百分比对应N-1个数值，分别表示不同比例的样本取值在给定数值及其以下。,操作原理,1.描述统计分析模块概述（1）Frequencies频数分布过程：产生频数分布表。（2）Descriptive描述统计量分析过程：（3）Explore探索分析过程：用于对数据分布状况不清时的探索性分析。（4）Ratio比例统计量（5）Means平均数分析：此过程主要用于分组计算各统计指标。,3.3 频度分析一、频度分布的描述方式:描述某变量取值的情况可以用数表和图形。二、操作步骤:选择AnalyzeDescriptive StatisticsFrequencies,Frequencies对话框,选择分析变量：回答变量名（可以多个）选项“Display frequency table”决定是否显示频数分布表。,“Statistics”描述统计量的计算：百分位数组（Percentile Value）：Quartiles:四分位数 Cut points n equal:n等分百分位数Percentile:指定的百分位数,“Chart”选择统计图形：Bar charts：条形图.按照个案的取值，用条形的长度来表达的图形。Pie charts:饼图.按照样本各类取值分组的百分比生成的圆形图形。Histograms：直方图.按照个案的分组取值，用条形的长度来表达各个组的取值的图形。只适用于数值型变量，若选择了“With normal curve”可附带一条用于对照的正态曲线。对于图形的标度可以用频数，也可以用百分比数。,Chart统计图子对话框,“Format”设置频数表格式排序方式Order by：Ascending values:按照变量值的升序排列。Descending values:按照变量值的降序排列。Ascending Counts:按照频数升序排列。Descending Counts:按照频数降序排列。多变量图形输出设置Compare variables:多变量图形输出在同一张图中可以有多个变量的输出结果。Organize output by variable:单变量图形输出在一张图中只能有一个变量的输出结果。,压缩表格格式 Suppress tables with more than n categories压缩表格表示频数类别将限制在n以内。超过n类的将不显示。压缩表格式将只显示变量值、频度、百分比和累计百分比。,3.4 描述分析操作步骤:选择AnalyzeDescriptive Statistics Descriptives,先从左边框中选择要分析的变量，放入右框中。2.左下方：Save standardized values as variables把标准化后的变量作为变量保存,3.Options 选项,设置排序的方法“Display order”：Variable list：按原始变量值排列。Alphabetic：按字母顺序排列。Ascending means：按均值的升序排列。Descending means：按均值的降序排列。,1探索分析的内容包括下面几个方面,检查数据是否有错误：过大或过小的数据均有可能是奇异值、影响点或错误数据。要找出这样的数据，并分析原因，然后决定是否从分析中删除这些数据。因为奇异值和影响点往往对分析的影响较大，不能真实反映数据的总体特征。,对数据规律的初步观察：通过初步观察获得数据的一些内部规律。例如，两个变量间是否线性相关。,3.5 探索分析,2探索分析的考察方法,探索分析一般通过数据文件在分组与不分组的情况下，获得常用统计量和图形。一般以图形方式输出，直观帮助用户确定奇异值、影响点、进行假设检验，以及确定用户要使用的某种统计方式是否合适。,3正态分布检验,常用的正态分布检验是Q-Q图。,4方差齐次性检验,对数据分析不仅需要进行正态分布检验，有时候还需要比较各个分组的方差是否相同，这就要进行方差齐次性检验。例如，在进行独立右边的T检验之前，就需要事先确定两个数据的方差是否相同。,如果通过分析发现各个方差不同，还需要对数据进行方差分析，那么就需要对数据进行转换使得方差尽可能相同。在探索分析中可以使用Levene检验。,Levene检验对数据进行方差齐次性检验时，不强求数据必须服从正态分布，它先计算出各个观测值减去组内均值的差，然后再通过这些差值的绝对值进行单因素方差分析。如果得到显著性水平小于0.05，那么就可以拒绝方差相同的假设。,操作步骤:选择AnalyzeDescriptive Statistics Explore,Dependent list：选择分析变量（因变量）到该框中 Factor list：选择分组变量(因素或自变量)到该框中 Label case by：选择标识变量。若不选此项，则在输出过程中用个案标号标识个案。Display：选择输出形式。,Both：二者都有输出Statistics：输出描述统计量 Plots：输出图形,“Statistics”选择描述统计量Descriptive:输出基本统计量 Confidence interval for 95%：系统默认的置信区M-estimators:反应集中趋势的四种最大似然估计量：Hurbers、Andrews、Hampels、Tukeys.Outliers:输出5个最大值和5个最小值。Percentile：可以输出5%、10%、25%、50%、75%、90%、95%的百分位数。,“Plot”选择特殊统计图形Boxplot:生成箱图 Factor levels together:在同一张图上只显示一个变量，不同水平同时显示。Dependent together:所有变量显示在同一张图上。None:不显示箱图,箱图Box主体：由大于25%的百分位数到小于75%的百分位数的样本组成。中间的黑色横线表示中位数。箱图Box本体：由上触须线和下触须线包括的范围组成。其意义是除去奇异值和极端值后的全部样本观测值。,奇异值：数据点到主体边缘的距离超过箱高的1.5倍。上奇异值=（75%百分位数-25%百分位数）*1.5+75%百分位数下奇异值=（75%百分位数-25%百分位数）*3+75%百分位数下极端值=25%百分位数-（75%百分位数-25%百分位数）*3,Descriptive Stem-and-leaf:生成箱图 Histogram：生成直方图，表现频度分布。,茎叶图 Stem-and-Leaf Plot Frequency Stem&Leaf.00 6.1.00 6.2 1.00 6.5 3.00 6.667 3.00 6.889 7.00 7.0001111 7.00 7.2223333 9.00 7.444455555 8.00 7.66667777 12.00 7.888889999999 13.00 8.0000000011111 11.00 8.22222333333 6.00 8.444455 6.00 8.666777 5.00 8.88999 3.00 9.001 2.00 9.23 1.00 9.4 1.00 9.6 1.00 Extremes(=98)Stem width:10.00Each leaf:1 case(s),第一列频数Frequency：表示样本的频数。第二列茎Stem：表达整数第三列叶Leaf:每片叶表示小数的量级。Stem width 表示茎宽，即倍率，例如茎宽=10.00 当茎stem=9时，表示90Each leaf 表示每片叶表示样本数，例如当Each leaf=2 case(s)时，每片叶子代表的样本数为2个样本。例如在上述例子中，第六行中的数据表示共有七个样本，其中70的样本有三个。最后一行中的数据表示共有一个样本，该样本为极端值，大于等于98。,Normality plot with test:正态分布检验并给出正态分布Q-Q图 Spread vs.Level with Levene test 方差齐性检验及分布水平散点图 None:不输出方差齐性检验及分布水平散点图 Power estimation:数据转换所得方差齐性的力度估计，可帮助决定是否需要做数据转换。Transformed power：对转换后数据做方差齐性检验及分布水平散点图。Untransformed：不做数据转换。,“Option”缺失值处理选项 Exclude cases Listwise:对于选入目标变量列表中的有缺失值的变量，无论其参与不参与当前运算，相应个案将被排除。Exclude cases Pairwise:对于选入目标变量列表中的有缺失值的变量，如果其参与运算，相应个案将被排除。Report Value:把分组变量中含缺失值的个案单独分为一组。,3.6 Ratio 比例统计量,操作步骤:选择AnalyzeDescriptive Statistics Ratio,Numerator：选入作为相对比分子的变量 Denominator：选择作为相对比分母的变量 Group Variable：选入分组变量 Sort by group variable：将数据按照分组变量排序,Display results：在结果窗口输出分析结果（系统默认）Save results to external file：将分析结果存为外部数据文件,Ascending order：升序排列 Descending order：降序排列,“Statistics”按钮Central Tendency:集中趋势,Dispersion：离散趋势 AAD:平均绝对离差,|全部比例-比例中位数|/n COD:离散系数。=AAD/比例的中位数 PRD:价格相关微分。=均值/加权均值Median centered COV:基于中位数的变异系数,SQRT（全部比例-比例中位数）/中位数 Mean centered COV:基于均值的变异系数。=标准差/均值Concentration index:计算集中系数 Ratio between:自定义区间上下界 Ratio%of median:Ratio between:,3.7 Mean 平均数分析,Means过程用于统计分组变量的的基本统计量。这些基本统计量包括：均值（Mean）、标准差(Standard Deviation)、观察量数目(Number of Cases)、方差(Variance)。Means过程还可以列出方差表和线性检验结果。,操作步骤:选择AnalyzeCompare means Means,1）设置分析变量从左边的变量列表中选中要分析变量后，放入到因子变量列表“Dependent List:”框里，可以从左边变量列表里选择一个或多个变量进行统计。从左边的变量列表中选中分组变量，放入“Independent List”分组变量框里，可以从左边变量列表里选择一个或多个分组变量。Layer 1 of 1:多个分组变量既可放在一层，又可放在不同层。利用图中的“Previous”和“Next”按钮可以在不同层之间切换。,2）选择输出统计量单击“Options”按钮。在“Options”对话框中，“Statistics”框中列出了SPSS可求的统计量。,在“Cell Statistics”框中列出了已选中的统计量。从“Statistics”框中选择要生成的统计量。“Statistics for First Layer”框中列出了第一层分组的另外两个统计量。“Anova table and eta”选中将给出方差分析表和eta统计量。eta统计量为分组变量与生成统计量的变量关系紧密程度的度量。“Test for Iinearity”选中给出分析变量和分组变量的线性关系参数，其前提条件为：分组变量和分析变量线性相关。,3.8交叉列联表利用频数或相对频数研究变量与变量之间的关系。一、交叉列联表结构定义：行变量和列变量例如：考试成绩数据：定义年龄为行变量，分3个水平，定义成绩为列变量，分5个水平，从而产生一个3 5的交叉列联表。每个单元格中的数据可以为频度、频率、期望值或残差等。最后一行和最后一列有本行、本列的频度求和以及频率求和。,二、交叉列联表中变量的定义：fij：第i行第j列的值，频数。f12=3，f23=3，f31=1fi.：第i行累计行边缘频数。fi.=f1.=5，f3.=6f.j：第j列累计列边缘频数。f.j=f.3=4，f.2=8Total：总频数=Expected Count期望值=fi.*f.j/total,%within 行变量行频率=fij/fi.%within 列变量列频率=fij/f.j%of Total 总频率=fij/totalResidual 残差=fij-Expected CountStd Residual 标准残差=Residual/(Expected Count)1/2Adjust Residual调整残差=Residual/Std Err,三、操作步骤执行StatisticsSummarizeCrosstabs 选择行变量到“row”中。选择列变量到“column”中。分组变量：Layer 1 of n 交叉列联表将依据该变量的取值进行分页显示。选择选项“Display clustered bar chart”将生成变量的频度分类条形图。选择选项“supress table”将不产生交叉列联表。,精确检验“Exact”用于在小样本和不均衡样本的检验。“Asymptotic only”选项是缺省的。不适用于小样本和非渐进分布方式的检验。“Monte Carlo”选项适用于指定个案数量的检验。该选项还允许非渐进分布方式的检验。“Exact”选项为精确计算。当结果小于等于0.05时可以认为行、列变量之间存在一定的相关性。“Statistics”用于选择描述统计量，共计13个统计量。,“Cells”将决定交叉列联表单元格中计算的内容：默认为频数“Count”中的“Observed”,即观测频数。“Expected”为观测期望值。“Row”、“Column”和“Total”分别为：行频数、列频数和总频数。“Unstandardized”、“Standardized”和“Adj.standardized”分别为：非标准化残差、标准化残差和调整标准化残差。按钮“Format”将可以设置：行排列的升序或降序。Ascending为升序Decending为降序,

注意事项

本文（《描述统计分析》PPT课件.ppt）为本站会员（小飞机）主动上传，三一办公仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三一办公（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。