零点知识库—统计讲座(数据准备基础分析高级分析)公安.ppt
《零点知识库—统计讲座(数据准备基础分析高级分析)公安.ppt》由会员分享,可在线阅读,更多相关《零点知识库—统计讲座(数据准备基础分析高级分析)公安.ppt(71页珍藏版)》请在三一办公上搜索。
1、数据分析技术在社会研究中的应用 Data Analysis in Social Research,演讲人:朱永明,市场与民意研究中的数据分析技术,基础介绍变量测量尺度数据库建立与数据准备基础统计分析方法多元高级统计方法统计分析软件SPSS和SAS,基础研究体系,研究技能与技巧,描述性分析,因果关系,探索性分析,抽样设计,定义问题,研究设计,测量尺度,问卷设计,调查实施,数据分析,营销调查/数据库,观察法,实验控制法,因果关系模型,二手资料,定性研究,定量消费者调查,消费者/市场识别,多变量分析技术,企业信息,消费者信息,市场调查过程,市场研究模型与技术,数据挖掘Data Mining,统计资料
2、/营销信息,专用模块和统计软件(结合现场软件展示)SPSSChaidWinAMOS、LISRELDecisionTimeWhat ifData MiningPCEDITEpiDataEnter Builder&Station其它软件数据库技术Access电子表格Excel撰写报告Powerpoint,研究中的数据分析技术,名称级-定类变量顺序级-定序变量间隔级-定距变量比例级-定比变量,低,高,转换,定性,定量,非数量型,数量型,离散型随机变量,连续型随机变量,统计分析方法的应用有时候按变量的测量等级来划分。,变量测量尺度,数据库建立与数据整理,PCEDIT的演示,SPSS的演示,数据库建立与
3、数据整理,PCEDIT的演示,Pcedit的启动建结构文件*.lay(重点为range和test if)录入转库pctodbf(重点)pctospss(略),数据库建立与数据整理,查错,使用spss范围查错逻辑查错,现场演示,统计分析法基础数据处理分析技术,频数分析 描述基础频次分布多重应答分析 多变量频次分析交叉分析 不同背景情况下的频次分布均值分析 平均得分的研究相关分析 两个变量的相关性大小多元方差分析 影响均值的背景变量是哪些,统计分析法基础数据处理分析技术,基础统计分析的现场演示,频数分析 Statistic/Frequency多重应答分析 Statistic/Multiple An
4、alysis交叉分析 Statistic/Crosstable均值分析 Statistic/Means相关分析 Statistic/Correlation 多元方差分析 Statistic/MANOVA,多变量统计分析法高级数据分析技术,一元与多元回归分析Regression Analysis主成份分析 Principal Component Analysis PCA因子分析 Factor Analysis FA(EFA&CFA)多维判别分析 Multiple Discrimination Analysis多维尺度分析 Multidimensional Scaling MDS MDA多元回归
5、Multiple Regression对应分析 Correspondence Analysis CA多元对应分析 Multiple Correspondence Analysis MCA多维偏好分析 Multidimensional Preference Analysis MDPREF 非线性主成份分析(Optimal Scaling)分类树 AnswerTreeCHAID&CART聚类分析 Cluster Analysis结合分析 Conjoint Analysis离散选择模型 Discrete Choice Model结构方程式模型 Structural Equation Model 预测
6、与决策模型Decision Time&What if,Y=a+bX,因变量,自变量(预测变量),截距,斜率,数学上下列方程在图形上是一条直线,X和Y线性回归,X,Y,X和Y线性回归,d,Yi,现场演示,回归分析的问题,决定系数R2方差分析表回归诊断残差图共线性问题变量转换异常值处理预测范围因变量是0-1定类变量:logistic regression,现场演示,主成份分析 Principal Component Analysis PCA,0,-1,-2,1,2,3,0,-1,-2,1,2,-3,第一主成份,第二主成份,沃尔沃,奔驰,BMW,切诺基,桑塔纳,捷达,富康,红旗,奥迪,别克,现代,本
7、田,丰田,赛欧,主成份分析的基本概念,x1,x2,Y1,Y2,x1,x2,X1与x2相关,Y1与Y2不相关,主成份分析的基本原理,P个变量能够组成p个主成份。每个主成份是p个原始变量的线性组合。第一主成份解释p个变量的最大变差。第二主成份解释p个变量的第二大变差。最后一个主成份解释变差最小。所有主成份彼此之间正交。线性组合后的主成份在几何空间上代表p个变量构成坐标系旋转后的新坐标系,新坐标轴代表了最大变差方向。,主成份分析应用,减少变量的个数。用于回归分析用于聚类分析用于偏好分析用于画出偏好图构造综合评价指数综合排序。,因子分析 Factor Analysis FA(EFA&CFA),每升行驶
8、里程,可靠性能,安全性能,0,-1,-2,1,2,3,0,-1,-2,1,2,-3,豪华型,运动型,经济型,第一因子得分,第二因子得分,因子分析-factor Analysis,一种简化数据的技术。探索性因子分析。证实性因子分析 因子分析就是要找到具有本质意义的少量因子。并用一定的结构/模型,去表达或解释大量可观测的变量。,主要应用,简化数据,减维技术。识别数据中潜在的不正直接观测的结构或维度。用产生的不相关的因子作为变量用于其它分析聚类分析、回归分析、判别分析等。识别变量中重要变量,用于其它分析。作偏好图。(两个因子)问卷设计的信度和效度。,因子分析的基本步骤,确定研究的问题数据准备考察相关
9、矩阵选择抽取因子的方法取定因子的个数旋转因子最大方差法评价模型的拟合效果解释因子并命名因子得分用于其它分析,多维偏好分析 Multidimensional Preference Analysis MDPREF,每升行驶里程,可靠性能,安全性能,0,-1,-2,1,2,3,0,-1,-2,1,2,-3,第一主成份,第二主成份,豪华型,运动型,经济型,沃尔沃,奔驰,BMW,切诺基,桑塔纳,捷达,富康,红旗,奥迪,别克,现代,本田,丰田,赛欧,第二因子得分,第一因子得分,理想点模型,每升行驶里程,可靠性能,安全性能,0,-1,-2,1,2,3,0,-1,-2,1,2,-3,第一主成份,第二主成份,豪
10、华型,运动型,经济型,沃尔沃,奔驰,BMW,切诺基,桑塔纳,捷达,富康,红旗,奥迪,别克,现代,本田,丰田,赛欧,第二因子得分,第一因子得分,理想点,帕萨特,聚类分析Cluster Analysis,Dendrogram using Average Linkage(Between Groups)Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num+-+-+-+-+-+桑塔纳 1-+-+红旗铭仕 10-+-+捷达 14-+I 吉利 2-+-+-+奥托 7-+I I I 奇瑞 4-+-+-+I 富康 11-+-+I
11、I 夏利2000 12-+-+I I I I 羚羊 13-+-+-+I 赛欧 3-+-+I I 波罗POLO 5-+I I 宝来 6-+I 别克 15-+-+I 风神蓝鸟 16-+-+I 帕萨特 8-+-+-+广州本田 9-+I 奥迪A6 17-+,谱系聚类分析和快速聚类Hierarchical&K-Mean Cluster Analysis,聚类分析的基本概念,聚类分析(cluster analysis)顾名思义是一种分类的多元统计分析方法。按照个体或样品(individuals,objects or subjects)的特征将它们分类,使 同一类别内的个体具有尽可能高的同质性(homoge
12、neity),而类别之间则应具 有尽可能高的异质性(heterogeneity)。也可以对变量分类,但是更常见的还是对个体分类。为了得到比较合理的分类,首先要采用适当的指标来定量地描述研究对象(样品 或变量,常用的是样品)之间的联系的紧密程度。常用的指标为“距离”和“相似系数”。假定研究对象均用所谓的“点”来表示。在聚类分析中,一般的规则是将“距离”较小的点或“相似系数”较大的点归为同一 类,将“距离”较大的点或“相似系数”较小的点归为不同的类。,需要一组表示个体性质或特征的变量,称之为分类变量。根据个体或样本之间联系的紧密程度进行分类。一般来说分类变量的组合都是由研究者规定的,不是像其它多元
13、分析方 法那样估计推导出来的。聚类分析前所有个体或样品所属的类别是未知的,类别个数一般也是未 知的,分析的依据就是原始数据,没有任何事先的有关类别的信息可参考。严格说来聚类分析并不是纯粹的统计技术,它不像其它多元分析法那样,需 要从样本去推断总体。聚类分析一般都涉及不到有关统计量的分布,也不需要进行显著性检验。聚类分析更像是一种建立假设的方法,而对假设的检验还需要借助其它 统计方法。,聚类分析的基本概念,Euclidean distance model,Dimension 1,2,1,0,-1,-2,-3,Dimension 2,1.5,1.0,.5,0.0,-.5,-1.0,-1.5,-2.
14、0,北京申办2008年奥运会,两岸关系,中国能否加入世贸组织,国营和集体企业改组、,依法治国,教育体制改革,打假,澳门回归,行业不正之风,土地承包政策不变,乱收费,农村脱贫致富,水灾后重建,农村村务公开、民主选举,减轻农民负担,反腐败,环境保护,亚洲金融危机会否波及,人民币是否贬值,养老保险,社会治安,下岗再就业,物价涨跌,医疗改革,住房货币化改革,多维尺度分析MDS,个人利益,国家利益,农民利益,社会利益,对维尺度分析-Multidimensional Scaling,在市场研究领域主要研究消费者的态度,衡量消费者的知觉及偏好。涉及的研究对象非常广泛,例如:汽车、洗头水、饮料、快餐食品、香烟
15、和国家、企业品牌、政党候选人等。通过MDS分析能够为市场研究提供有关消费者的知觉和偏好信息。主要借助计算机统计分析软件,输入有关消费者对事物的知觉或偏好数据,转换为一组对象或对象特征构成的多维空间知觉或偏好图感知图。,应用MDS,收集的数据值大小必须能够反应两个研究对象的相似性或差异性程度。这种数据叫做邻近。所有研究对象的邻近数据可以用一个邻近矩阵表示。反映邻近的测量方式:相似性-数值越大对应着研究对象越相似。差异性-数值越大对应着研究对象越不相似。两个地点(位置)之间的实际距离。(测量差异性)两个产品之间相似性或差异性的消费者心理测量。两个变量的相关性测量。(相关系数测量相似性)从一个对象过
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 零点 知识库 统计 讲座 数据 准备 基础 分析 高级 公安

链接地址:https://www.31ppt.com/p-2283068.html