数据分析软件及其应用.ppt
数据处理 统计分析 软件 EXCEL Markway SPSS,数据分析软件及其应用,一、课程概述,一、开课的意义二、数据分析的基本内容三、数据分析的基本方法四、数据分析的基本程序五、数据分析软件介绍六、参考书目,二、数据分析的基本内容,数据结构分析数据分布特征分析数据对比关系分析数据之间相互关系的分析数据变动规律及特征的分析多元统计数据分析,数据相互关系的分析方法,三、数据分析的主要方法,指标法:总量指标、相对指标、平均指标和变异指标等。模型法:时间序列模型、回归分析模型、综合评价模型等。图表法:,统计图根据其用途可以分为以下几类:(1)反映数据分布特征的图形:条形图、直方图、折线图、箱线图、茎叶图等。(2)反映数据依存关系的图形;散点图、比较图。(3)反映变动趋势的图形:线图(4)综合评价图:雷达图,统计图的选用,四、数据分析的基本程序,1、明确数据分析的目标;2、正确收集数据;3、数据的加工与整理;4、选择合适的统计方法分析数据;5、正确解释分析结果。,运用数据分析软件进行数据分析的基本过程(举例),1、建立数据文件2、根据分析目的,选择需要对数据进行处理的工具,对数据进行分析处理3、用图表展示处理结果4、分析结果解释与说明,常用数据分析软件介绍,1、Excel 2、SAS(Statistical Analysis System)3、马克威(Markway)分析系统 4、SPSS,关于SPSS,SPSS的英文原名为:Statistical Package for Social Sciences,译为社会科学统计软件包。2002年将英文全称更改为:Statistical Product and Service Solutions,译为统计产品与服务解决方案。2009年,SPSS公司宣布重新包装旗下的SPSS产品线,定位为预测统计分析软件(Predictive Analytics Software)PASW,参考书目,1、Excel数据统计与分析范例应用 杨世莹/编著 中国青年出版社 2、SPSS统计分析方法及应用 薛薇/编著 电子工业出版社社 3、SPSS统计分析从入门到精通 杜强等/编著 人民邮电出版社4、SPSS18数据分析基础与实践 李洪成/主编电子工业出版社社5、马克威(Markway)软件与统计分析教程/魏振军主编6、Excel数据透视表应用大全 Excel Home/编著 人民邮电出版社,第一部分Excel与数据处理与分析,一、Excel数据处理与分析功能概述,(一)数据的获取与Excel建立数据清单(二)使用“数据透视图表”完成数据整理与分析(三)使用“数据分析”工具完成数据整理与分析(四)利用Excel函数完成数据整理与分析 1、单一函数的调用 2、函数的组合应用(五)Excel图表在数据整理与分析中的应用(六)其他Excel数据处理功能介绍,二、数据的获取与建立数据清单,(一)获取外部数据 1、导入法获取外部数据(直接在Excel中打开其他格式的文件)2、从外部数据库获取数据(二)建立数据清单 1、快速输入技巧:(1)在多个单元格中同时输入相同信息;选定单元格;输入内容;按“Ctrl+Enter”键,二、数据的获取与建立数据清单(续),(2)快速输入当前日期和时间;按“Ctrl+;”键 按“Ctrl+Shift+;”键(3)数据自动填充工具的应用;(4)数据分列 2、特殊数据的输入(1)输入零开头的数据(2)输入分数数据:数据输入后,按“Enter”键 注意点:数据清单中,列为变量,行为记录。“同一变量的不同取值放在同一列”。,数据透视图表及应用,数据透视表简介,数据透视表是交互式报表。(举例说明)可快速合并和比较大量的数据,在数据的频数统计方面功能也很强大。汇总的数据必须是数据库格式。即数据表中必须包含字段、记录和数据项。创建数据透视表的步骤:第一步选择数据类型 第二步选择数据区域 第三步选择数据透视表的显示位置 第四部 对数据透视表进行布局 第五步进一步设置数据透视表的选项,数据透视图简介,用以表示数据透视表结果的图形。数据透视图的创建依赖于数据透视表。数据透视图的创建:直接在数据透视表的基础上创建(举例)与数据透视表同时创建 Excel图表工具创建,数据透视图表在数据整理中的应用,数据透视图表在“数据管理”中的应用,1、分页管理数据2、在数据透视图表中排序数据3、在数据透视图表中进行计算(1)对同一字段使用多种汇总方式(2)差异数据显示方式的应用,用“数据透视图表工具”做品质数据整理,单一变量频数分布统计;(举例)双变量列联交叉频数分布统计;(举例)三变两列联交叉分数分布统计;(举例)品质数据整理结果的图示:条形图、饼图。,用数据透视图表工具Excel做数值型数据整理,单变量值分组(举例)组距式分组(举例)数值型数据整理结果的图示:(举例)直方图、折线图、累计次数分布图。,用数据透视图表工具处理调查数据,市场调查数据的录入技巧;单选调查项目的处理与图示;多选调查项目的处理与图示;排序调查项的处理与图示。调查数据的其他处理技巧,数据透视图表的其他应用,数据透视图在会计工作中的应用,会计数据查询与管理会计数据整理试算平衡表的编制,数据分析工具在数据处理中的应用,安装数据分析工具库,描述统计量的计算:均值、中位数、众数、标准差、峰度和偏态系数;抽取随机样本;相关图表制作;计算相关系数;建立回归方程。,Excel函数在数据整理与分析中的 中的应用,单一函数的应用:NOW()、TODAY()CONNTIF()、SUMIF()、FORECAST()、GEOMEAN()、HARMEAN()函数的组合运用:抽样估计,图形在数据整理与分析中的应用,常用统计图形的制作,1、在图表中操作数据系列 数据系列的增删、丢失数据的处理、使用次坐标、创建组合图、数据行列转置等。2、制作直方图、时间序列图、雷达图、温度计图、甘特图、比较柱状图等、四分图、罗伦茨曲线等。,“直方图”用于反映数值型分组数据的频数分布状况。,直方图,柱形图(条形图),直方图,适用条件:当多个数据点的数据值都小于饼图的 5%时,为更明显的区分各个扇区,可以采用复式饼图。,复式饼图,比较柱状图,比较柱状图用于分析两个总体在按某一标志分组情况下各部分之间的差异。,温度计图,“温度计”图用于显视任务完成的百分比。,“气泡图”用于展示三个变量之间的关系。绘制时将一个变量放在纵轴、一个变量放在纵轴、第三个变量用气泡的大小来表示。,气泡图,雷达图,“雷达图”是一种多指标综合评价统计图形。在经济管理活动中,利用雷达图可以比较不同国家或区域之间的经济实力和发展程度,也可以比较不同地区和单位工作或成绩的差别等。,排列图,又称帕累托(Pareto)图。全称为主次因素排列图,在质量管理中非常有用。绘制依据:次数分布。判别准则:一般把项目按累计百分比分为三类:0%80%A类,为主要原因 80%90%B类,为次要原因 90%100%C类,为一般原因,排列图,四分图模型,是一种偏于定性研究的企业经营活动诊断模型。它列出企业产品或服务的所有绩效指标,每个绩效指标有重要性和满意度两个属性。根据顾客对该绩效指标的的重要程度和满意程度打分,将所有绩效指标归进四个象限内,然后对归入不同象限的绩效指标进行分别处理。各象限划分如下:A区优势区 B区维持区 C区机会区 D区修补区,四分图,洛伦茨曲线,“罗伦茨曲线”是20世纪初美国经济学家、统计学家洛伦茨()根据意大利经济学家帕累托(V.Pareto)提出的收入分配公式绘制的描述收入和财富分配平均程度的曲线。,绘制依据:一定区域家庭户数累计百分比和相应的家庭收入累计百分比。,绘制罗伦茨曲线的基本方法,绘制洛伦茨曲线的基本方法是:(1)对居民家庭按人均收入水平分组,并按从低到高顺序排列;(2)计算各组家庭数(或人数)占全部总户数的比重,并在此基础上计算各组的累计频数(比重);(3)以收入不高于某水平的家庭数(或人数)占总户数(或总人数)的比重为X轴,以与其相应的家庭(或人口)拥有的收入在总收入中所占的比重为Y轴,建立平面直角坐标 进行绘制。,绘制罗伦茨曲线的基本方法,绘制洛伦茨曲线的基本方法是:(1)对居民家庭按人均收入水平分组,并按从低到高顺序排列;(2)计算各组家庭数(或人数)占全部总户数的比重,并在此基础上计算各组的累计频数(比重);(3)以收入不高于某水平的家庭数(或人数)占总户数(或总人数)的比重为X轴,以与其相应的家庭(或人口)拥有的收入在总收入中所占的比重为Y轴,建立平面直角坐标 进行绘制。,分类汇总工具在数据处理中的应用,小结,一、用Excel做数据的整理,(一)品质数据的整理 运用“数据透视图表”工具(二)数值型数据的整理 1、运用“数据透视图表”工具 2、运用“数据分析”工具 3、“FREQUENCY”函数(三)数据整理结果的图示:条形图、饼图、直方图、累计频数分布折线图。,二、用Excel做数据的分析,(一)描述性统计量的计算 分类汇总功能、“数据分析”工具、函数(二)数据的相关性分析“数据分析”工具、函数(三)数据变动趋势分析“数据分析”工具、函数(三)数据分析中的图形应用:盒图、雷达图、散点图、折线图、比较柱状图、气泡图、复式饼图等。,第二部分马克威软件与数据整理与分析,马克威分析系统概述,特点:中文数据分析软件基本功能:1、数据处理 2、数据分析 3、数据挖掘 4、图表制作,建立马克威数据文件,第一步,在变量窗口中,根据原始数据定义每个变量的数据类型。第二步,在数据窗口中,依次输入每个单元格所对应的值。第三步,保存数据文件。,数据处理,1、变量计算2、数据抽样3、重新编码4、权重设置5、分类汇总,基础统计分析,均值分析频率分析描述分析 学习过程中注意与Excel比较交叉表相关分析一元方差分析参数检验非参数检验,图表制作,盒图排列图茎叶图高低图表格应用,第三部分SPSS与数据整理与分析,第一节SPSS软件概述,一、Spss软件的特点,SpssStatistical Package for the Social Science即“社会科学统计软件包”特点:除数据输入需要键盘以外,其余操作大多是通过“菜单”、“图形按钮”、“对话框”等来完成。,二、SPSS的常用界面,数据编辑窗口、结果观察窗口、对象编辑窗口、草稿输出窗口、命令语句窗口和脚本编写窗口。其中最常用的是数据编辑窗口、结果观察窗口、对象编辑窗口三个窗口。,数据编辑窗口(Data Editor)用法简介,数据编辑窗口进入:三种方式;数据编辑窗口的组成:标题栏、工具栏、编辑栏、编辑区及状态栏等数据编辑窗口工具栏介绍冻结数据表中的列,关于File菜单,Read Text Data:使用文本导入向导读入文本文件;Cache Data:建立数据缓冲区;Switch Server:这条命主要用于使用SPSS服务器的客户端计算机.,结果观察(SPSS Viewer)窗口简介,窗口进入;窗口的组成:标题栏、工具栏、导航栏、分析结果区。结果观察窗口工具栏介绍,对象编辑(SPSS Object)窗口简介,窗口进入:右键方式、双击方式;枢纽表(Pivoting Trays)窗口、图形编辑(Chart Editor)窗口。Interactive graph编辑状态。,第二节SPSS数据文件的建立与操作,一、建立spss数据文件,打开spss,进入数据输入(Data View)界面;定义变量与数据编码,其中“name”、“label”、“values”三个选择比较重要;在数据输入模式下,用键盘将数据直接输入,输入前点击ViewValue Labels;保存数据文件,待分析使用。,Spss变量名的定义规则,变量名中不能有空格;变量名允许有64字节长,首写必须是文字母或以下符号之一:、#、$,除首写自字符外其他可以是字母、数字、小数点或其他任意非标点符号的字符;避免“.”、“-”作为变量名结尾。,Spss的变量类型,数值型:标准数值型、带逗号的数值型、圆点数值型、科学计数法、带美元符号的数值型、自定义类型。字符型:字符串可以包括数字、字母、特殊字符,最长为32767个字符。日期型:16种。,变量标签与值标签,变量标签与值标签,用于变量名和变量值的辅助说明。Variable Labels(变量标签)在统计分析结果中,可以在与变量名相对应的位置显示该变量的标签,或直接以变量标签代替变量名显示,有助于理解和分析输出结果。Value Labels(变量值标签),分类变量经常需要定义值的标签。由于提高数据录入效率非常有用。,输入数据,输入数据的方法查看文件信息和变量信息,对数据文件的操作,数据文件的打开与保存;数据库文件的转换;,编辑数据文件,在单元格中表编辑数据;插入变量与删除变量;插入记录与删除记录;数据的剪贴、复制和粘贴;撤销操作。,调查数据的前期处理,数据的合并(复制、粘贴)数据的审核与修改 数据输入错误的类型:数值定义范围内的错误、数值定义范围外的错误、逻辑错误。用Recode和Computer命令查找错误。第二类错误的检查:数据排序:Datasort casessort bysort orderok.第三类错误,逻辑错误的检查与纠正:交互分类表 TransformComputerif.Include if case satisfies condition,第三节数据文件的操作,一、数据文件的一般操作,数据排序;数据文件分组;数据文件的合并;数据文件的转置;变量取值求秩;变量值的重新编码;计算新变量。,Spss函数,根据函数功能和处理的变量类型,SPSS函数大致可分为:算术函数、统计函数、分布函数、逻辑函数、字符串函数、缺失值函数、日期函数和其它函数。,二、数据文件的其他操作,分类汇总;观测量的加权;数据文件的结构重组。,第四节基本统计分析功能,OLAP在线分析过程(Online Analytical Processing),工具进入“Analyze Reports OLAP Cubes”;OLAP的变量设置;分析选项设置;结果分析和交互式操作。,观测的摘要报告分析(Case Summaries),过程进入:“Analyze Reports Case Summaries”;变量设置;统计量设置;Options选项设置。,行摘要报告分析,过程进入“Analyze Reports Report Summaries in Row”;变量选择设置;对指定变量的参数设置;全部数据参数设置;,列摘要报告分析,过程进入“Analyze Reports Report Summaries in Columns”;变量选择设置;汇总变量的参数设置;分类变量的参数设置;全部数据统计设置;,用spss做数据整理(频数分析与列联表分析),品质数据整理 单一变量次数分布表 依次选择:AnalyzeDescriptiveStatisticeFrequencies 双变量交互次数分布表 依次选择:AnalyzeDescriptive StatisticeCrsstab数值型数据整理 单项式次数分布表(同品质数据整理)组距式次数分布表 首先:TransformRecodeInto Different VariablesOld and New Value 其次:对分组结果的取值范围进行定义,描述性统计分析,计算描述性统计量方法1:AnalyzeDescriptiveStatisticeFrequenciesStatistice方法2:AnalyzeDescriptiveStatisticeDescriptives分类平均数的计算:AnalyzeCompare Meam Meam,描述性统计分析(续),计算加权平均数(1)选择菜单DataWeight Cases;(2)选择Weight Cases by选项,并将权数变量选到Weight Cases by 框中。(3)AnalyzeDescriptiveStatisticeDescriptives绘制数据分布图Explore过程的应用(1)茎叶图的绘制(2)箱线图的绘制,描述性统计分析(续),茎叶图与箱线图的绘制过程基本相似,只是在图形选择上有差异。其过程如下:第一步,选择Analyze Explore,进入Explore 对话框;第二步,在主对话框中,选择分析和分组变量,并确定分组结果中是否包含统计描述、统计图或两者均包括;第三步,选择Statistics子对话框,确定需要输出的描述统计量;第四步,选择Plots子对话框,确定需要输出的图形。,输出结果的使用,选定文件Copy Objects粘贴。,抽样与参数估计,随机抽样(Random sample of cases)DataSelect Cases Random sample of cases参数估计Analyze Explore StatisticsDescriptives.,相关分析,绘制散点图GraphsScatterSimple计算相关系数 AnalyzeCorrelateBivariate计算偏相关系数 AnalyzeCorrelatePartial,回归分析,线性回归分析AnalyzeRegresionLinear.曲线回归分析AnalyzeRegresionCurve Estimation.,调查数据整理,单选题整理:频率统计多项选择题的整理(多重响应分析)1、将多选题的各选项定义为一个数据集。即:AnalyzeMultiple ResponseDefine Sets.2、重新点击AnalyzeMultipleResponseFrequencies(Crosstals).,第五节SPSS图形制作与应用,Spss图形制作,基本图形制作:1、条形图(Bar Chart)(1)简单条形图(2)复式条形图(3)堆积条形图(4)多变量汇总条形图(5)个体观察值条形图,2、线图(Line Chart)(1)单线图(2)双线图(3)垂线图(4)线图的特殊编辑(添加参考线和特别显示)3、面积图(Area Chart),Spss图形制作(续),4、饼图(Pie Chart)5、散点图(Scattre Plot)(1)简单散点图(2)相关阵图(3)三维旋转图(4)散点图的特殊编辑 添加均值参考线、拟合回归线、预测区间设置等。,Spss图形制作(续),6、帕累托图(Pareto Chart)7、直方图(Histogram),Spss图形制作(续),第六节SPSS高级统计分析功能应用,高级统计分析,1、回归分析2、聚类分析3、因子分析,聚类分析介绍,方法依据:“物以类聚,人以群分”方法特征:聚类分析是一种建立分类的多元统计方法,它能够将一批样本(或变量)根据其诸多数据特征,按照在性质上的亲疏程度在没有先知知识的情况下进行自动分类,产生多个分类结果。类内部的个体在特征上具有相似性,不同类间个体特征的差异性较大。聚类过程中亲疏程度的度量:计算个体间的距离,计算方法因变量类型不同而不同。定距型变量个体间距离的计算:有7种方法,其中最常用的是欧氏距离(Euclidean distance);计数变量个体间距离的计算:卡方(Chi-Square measure)距离、Phi方(Phi-Square measure)距离;二值变量个体间距离的计算:简单匹配系数(Simple Matching)、雅科比系数(Jaccard),聚类分析想(续),聚类分析的方法:层次聚类法、K-Means聚类、模糊聚类等 层次聚类法:Q型聚类、R型聚类。聚类方式有:凝聚方式、分解方式两种。Spss层次聚类采用的是凝聚方式。个体与小类、小类与小类间“亲疏程度”的度量方法:最近邻居(Nearest Neighbor)距离 最远邻居(Furthest Neighbor)距离 组内平均连锁(Within-groups-linkage)距离 重心(Centroid clustering)距离,因子分析,因子分析的基本思想:根据相关性大小把原始变量分组,使的同组内的变量之间相关性较高,而不同组变量间的相关性较低。每组变量代表一个基本结构,并用一个不可观测的综合变量来表示,这个基本结构称为公共因子。因子分析的目的是寻求变量的基本结构,简化观测系统,减少变量维数,用少数的变量解释所研究的复杂问题。,因子分析的一般数学模型,因子分析的步骤,第一步,对原始变量进行标准化处理;第二步,提取因子,确定描述数据所需要的因子数以及计算方法;第三步,因子旋转,集中于变换因子使之更好解释;第四步,计算因子得分;第五步,根据因子的分值作进一步的分析。,因子分析中的几个重要概念,因子负荷:(因子载荷),即因子分析模型中的各因子系数值。他的绝对值越大,表示该因子对当前变量的影响程度越大。公因子方差比(Communalities):指的是提取公因子后,各变量信息分别被提取的比例,或者说原变量方差中有公因子决定的比例。其取值在01之间,其值越大,说明该变量能被因子说明的程度越高。特征根(Eigenvalue):特可以看做是公因子影响力度的指标,代表引入该因子后可以解释多少元是变量的信息。,因子分析的应用,解决多重共线性问题。数据简化。对样本进行分类和综合评价。,