零点知识库—统计讲座(数据准备基础分析高级分析)公安.ppt
数据分析技术在社会研究中的应用 Data Analysis in Social Research,演讲人:朱永明,市场与民意研究中的数据分析技术,基础介绍变量测量尺度数据库建立与数据准备基础统计分析方法多元高级统计方法统计分析软件SPSS和SAS,基础研究体系,研究技能与技巧,描述性分析,因果关系,探索性分析,抽样设计,定义问题,研究设计,测量尺度,问卷设计,调查实施,数据分析,营销调查/数据库,观察法,实验控制法,因果关系模型,二手资料,定性研究,定量消费者调查,消费者/市场识别,多变量分析技术,企业信息,消费者信息,市场调查过程,市场研究模型与技术,数据挖掘Data Mining,统计资料/营销信息,专用模块和统计软件(结合现场软件展示)SPSSChaidWinAMOS、LISRELDecisionTimeWhat ifData MiningPCEDITEpiDataEnter Builder&Station其它软件数据库技术Access电子表格Excel撰写报告Powerpoint,研究中的数据分析技术,名称级-定类变量顺序级-定序变量间隔级-定距变量比例级-定比变量,低,高,转换,定性,定量,非数量型,数量型,离散型随机变量,连续型随机变量,统计分析方法的应用有时候按变量的测量等级来划分。,变量测量尺度,数据库建立与数据整理,PCEDIT的演示,SPSS的演示,数据库建立与数据整理,PCEDIT的演示,Pcedit的启动建结构文件*.lay(重点为range和test if)录入转库pctodbf(重点)pctospss(略),数据库建立与数据整理,查错,使用spss范围查错逻辑查错,现场演示,统计分析法基础数据处理分析技术,频数分析 描述基础频次分布多重应答分析 多变量频次分析交叉分析 不同背景情况下的频次分布均值分析 平均得分的研究相关分析 两个变量的相关性大小多元方差分析 影响均值的背景变量是哪些,统计分析法基础数据处理分析技术,基础统计分析的现场演示,频数分析 Statistic/Frequency多重应答分析 Statistic/Multiple Analysis交叉分析 Statistic/Crosstable均值分析 Statistic/Means相关分析 Statistic/Correlation 多元方差分析 Statistic/MANOVA,多变量统计分析法高级数据分析技术,一元与多元回归分析Regression Analysis主成份分析 Principal Component Analysis PCA因子分析 Factor Analysis FA(EFA&CFA)多维判别分析 Multiple Discrimination Analysis多维尺度分析 Multidimensional Scaling MDS MDA多元回归 Multiple Regression对应分析 Correspondence Analysis CA多元对应分析 Multiple Correspondence Analysis MCA多维偏好分析 Multidimensional Preference Analysis MDPREF 非线性主成份分析(Optimal Scaling)分类树 AnswerTreeCHAID&CART聚类分析 Cluster Analysis结合分析 Conjoint Analysis离散选择模型 Discrete Choice Model结构方程式模型 Structural Equation Model 预测与决策模型Decision Time&What if,Y=a+bX,因变量,自变量(预测变量),截距,斜率,数学上下列方程在图形上是一条直线,X和Y线性回归,X,Y,X和Y线性回归,d,Yi,现场演示,回归分析的问题,决定系数R2方差分析表回归诊断残差图共线性问题变量转换异常值处理预测范围因变量是0-1定类变量:logistic regression,现场演示,主成份分析 Principal Component Analysis PCA,0,-1,-2,1,2,3,0,-1,-2,1,2,-3,第一主成份,第二主成份,沃尔沃,奔驰,BMW,切诺基,桑塔纳,捷达,富康,红旗,奥迪,别克,现代,本田,丰田,赛欧,主成份分析的基本概念,x1,x2,Y1,Y2,x1,x2,X1与x2相关,Y1与Y2不相关,主成份分析的基本原理,P个变量能够组成p个主成份。每个主成份是p个原始变量的线性组合。第一主成份解释p个变量的最大变差。第二主成份解释p个变量的第二大变差。最后一个主成份解释变差最小。所有主成份彼此之间正交。线性组合后的主成份在几何空间上代表p个变量构成坐标系旋转后的新坐标系,新坐标轴代表了最大变差方向。,主成份分析应用,减少变量的个数。用于回归分析用于聚类分析用于偏好分析用于画出偏好图构造综合评价指数综合排序。,因子分析 Factor Analysis FA(EFA&CFA),每升行驶里程,可靠性能,安全性能,0,-1,-2,1,2,3,0,-1,-2,1,2,-3,豪华型,运动型,经济型,第一因子得分,第二因子得分,因子分析-factor Analysis,一种简化数据的技术。探索性因子分析。证实性因子分析 因子分析就是要找到具有本质意义的少量因子。并用一定的结构/模型,去表达或解释大量可观测的变量。,主要应用,简化数据,减维技术。识别数据中潜在的不正直接观测的结构或维度。用产生的不相关的因子作为变量用于其它分析聚类分析、回归分析、判别分析等。识别变量中重要变量,用于其它分析。作偏好图。(两个因子)问卷设计的信度和效度。,因子分析的基本步骤,确定研究的问题数据准备考察相关矩阵选择抽取因子的方法取定因子的个数旋转因子最大方差法评价模型的拟合效果解释因子并命名因子得分用于其它分析,多维偏好分析 Multidimensional Preference Analysis MDPREF,每升行驶里程,可靠性能,安全性能,0,-1,-2,1,2,3,0,-1,-2,1,2,-3,第一主成份,第二主成份,豪华型,运动型,经济型,沃尔沃,奔驰,BMW,切诺基,桑塔纳,捷达,富康,红旗,奥迪,别克,现代,本田,丰田,赛欧,第二因子得分,第一因子得分,理想点模型,每升行驶里程,可靠性能,安全性能,0,-1,-2,1,2,3,0,-1,-2,1,2,-3,第一主成份,第二主成份,豪华型,运动型,经济型,沃尔沃,奔驰,BMW,切诺基,桑塔纳,捷达,富康,红旗,奥迪,别克,现代,本田,丰田,赛欧,第二因子得分,第一因子得分,理想点,帕萨特,聚类分析Cluster Analysis,Dendrogram using Average Linkage(Between Groups)Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num+-+-+-+-+-+桑塔纳 1-+-+红旗铭仕 10-+-+捷达 14-+I 吉利 2-+-+-+奥托 7-+I I I 奇瑞 4-+-+-+I 富康 11-+-+I I 夏利2000 12-+-+I I I I 羚羊 13-+-+-+I 赛欧 3-+-+I I 波罗POLO 5-+I I 宝来 6-+I 别克 15-+-+I 风神蓝鸟 16-+-+I 帕萨特 8-+-+-+广州本田 9-+I 奥迪A6 17-+,谱系聚类分析和快速聚类Hierarchical&K-Mean Cluster Analysis,聚类分析的基本概念,聚类分析(cluster analysis)顾名思义是一种分类的多元统计分析方法。按照个体或样品(individuals,objects or subjects)的特征将它们分类,使 同一类别内的个体具有尽可能高的同质性(homogeneity),而类别之间则应具 有尽可能高的异质性(heterogeneity)。也可以对变量分类,但是更常见的还是对个体分类。为了得到比较合理的分类,首先要采用适当的指标来定量地描述研究对象(样品 或变量,常用的是样品)之间的联系的紧密程度。常用的指标为“距离”和“相似系数”。假定研究对象均用所谓的“点”来表示。在聚类分析中,一般的规则是将“距离”较小的点或“相似系数”较大的点归为同一 类,将“距离”较大的点或“相似系数”较小的点归为不同的类。,需要一组表示个体性质或特征的变量,称之为分类变量。根据个体或样本之间联系的紧密程度进行分类。一般来说分类变量的组合都是由研究者规定的,不是像其它多元分析方 法那样估计推导出来的。聚类分析前所有个体或样品所属的类别是未知的,类别个数一般也是未 知的,分析的依据就是原始数据,没有任何事先的有关类别的信息可参考。严格说来聚类分析并不是纯粹的统计技术,它不像其它多元分析法那样,需 要从样本去推断总体。聚类分析一般都涉及不到有关统计量的分布,也不需要进行显著性检验。聚类分析更像是一种建立假设的方法,而对假设的检验还需要借助其它 统计方法。,聚类分析的基本概念,Euclidean distance model,Dimension 1,2,1,0,-1,-2,-3,Dimension 2,1.5,1.0,.5,0.0,-.5,-1.0,-1.5,-2.0,北京申办2008年奥运会,两岸关系,中国能否加入世贸组织,国营和集体企业改组、,依法治国,教育体制改革,打假,澳门回归,行业不正之风,土地承包政策不变,乱收费,农村脱贫致富,水灾后重建,农村村务公开、民主选举,减轻农民负担,反腐败,环境保护,亚洲金融危机会否波及,人民币是否贬值,养老保险,社会治安,下岗再就业,物价涨跌,医疗改革,住房货币化改革,多维尺度分析MDS,个人利益,国家利益,农民利益,社会利益,对维尺度分析-Multidimensional Scaling,在市场研究领域主要研究消费者的态度,衡量消费者的知觉及偏好。涉及的研究对象非常广泛,例如:汽车、洗头水、饮料、快餐食品、香烟和国家、企业品牌、政党候选人等。通过MDS分析能够为市场研究提供有关消费者的知觉和偏好信息。主要借助计算机统计分析软件,输入有关消费者对事物的知觉或偏好数据,转换为一组对象或对象特征构成的多维空间知觉或偏好图感知图。,应用MDS,收集的数据值大小必须能够反应两个研究对象的相似性或差异性程度。这种数据叫做邻近。所有研究对象的邻近数据可以用一个邻近矩阵表示。反映邻近的测量方式:相似性-数值越大对应着研究对象越相似。差异性-数值越大对应着研究对象越不相似。两个地点(位置)之间的实际距离。(测量差异性)两个产品之间相似性或差异性的消费者心理测量。两个变量的相关性测量。(相关系数测量相似性)从一个对象过渡到另一个对象的转换概率。例如概率反应了消费者对品牌或产品偏好的变化。(测量相似性)反映两种事物在一起的程度。例如:用早餐人们经常将两种食品搭配在一起。(测量相似性),多维判别分析 Multiple Discrimination Analysis MDA,判别函数2,判别函数1,-1,-2,1,2,3,0,-1,-2,1,2,-3,价格水平,交货速度,产品质量,销售力度,价格弹性,总体服务,制造商形象,新用户,犹豫/转移用户,重复购买用户,判别分析是一种进行统计判别和分类的统计技术手段。它可以就一定数量的个体的一个分类变量和相应的其它多元变量的已知信息,确定分类变量与其它多元变量之间的数量关系,建立判别函数。利用这一数量关系对其他已知多元变量的信息、但未知分组的子类型的个体进行判别分组。市场细分研究中,常涉及判别个体所属类型的问题。也常涉及不同品牌在一组产品属性之间的消费者偏好和认知概念,判别分析可以很好地对这种差异进行鉴别。并在低维度空间表现这种差异。,因变量(dependent variable):分组变量定性数据(个体、产品/品牌、特征)。自变量(independent variable):判别变量定量数据(属性的评价得分)。,判别分析,确定分组变量与判别变量间的关系,建立判别函数,找到自变量的最佳区分因变量的各个类别的线性组和。也可以确定后验概率,计算每个个体落入各个类别的概率。确定哪些判别变量x1、x2、x3、xk对区分类别差异的影响最大。考察各个类别在判别变量方面是否存在显著差异。确定判别变量是以什么形式影响因变量的,即D是 x1 x2 x3 xk 什么形式的函数。根据判别变量的值对个体进行分类。对分析的准确程度进行评价。,主要应用判别和细分市场,用户和非用户经常购买者和非经常购买者新用户、流失用户和忠实用户忠诚用户和非忠诚用户新产品早期使用者和后期使用者消费者心目中喜欢的品牌和不喜欢的品牌消费者对我们的品牌和竞争品牌的不同属性偏好偏好图市场细分新产品开发,A,B,C,D,E,F,G,价格合理性,易于服用,药效持久,有效性,对儿童有益,药性温和,感冒药品概念图/品牌图,Logistic回归模型,逻辑斯特回归,Logistic回归是一种进行统计判别和分类的统计技术手段。它可以就一定数量的个体的一个二分变量(因变量)和相应的其它多个自变量(预测变量)的已知信息,确定二分变量与其它预测变量之间的数量关系,建立Logistic非线性回归方程。利用回归方程进行预测和解释,在其他已知多元变量的信息、但未知分组的个体进行判别分组。,因变量(dependent variable):0-1变量 二分变量(个体、产品/品牌、特征)。自变量(independent variable):预测变量定量数据或定性(属性的评价得分)。,市场细分研究中,常涉及判别个体所属类别是两个分类的问题。例如:是否该给某个人发信用卡,是否是用户,成功和失败,疾病的诊断等,Logistic 回归可以很好地对这种差异进行鉴别。,.6,.4,.2,.0,-.2,-.4,-.6,-.8,-1.0,1.5,1.0,.5,0.0,-.5,-1.0,新疆,宁夏,青海,甘肃,陕西,西藏,云南,贵州,四川,海南,广西,广东,湖南,湖北,河南,山东,江西,福建,安徽,浙江,江苏,上海,黑龙江,吉林,辽宁,内蒙,山西,河北,天津,北京,200元以上,101-200元,51-100元,50元以下,南方区域,北方区域,话费高省,话费低省,固定电话话费不同省分布情况,对应分析 Correspondence Analysis,对应分析的基本概念,对应分析是一种数据分析技术,它能够帮助我们研究由定性变量构成的交互汇总表来揭示变量间的联系。交互表的信息以图形的方式展示。是强有力的探索数据技术,主要适用于有多个类别的定类变量。可以揭示同一个变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。适用于两个或多个定类变量。,对应分析 Correspondence Analysis CA,Dimension 1,2.5,2.0,1.5,1.0,.5,0.0,-.5,-1.0,-1.5,Dimension 2,1.5,1.0,.5,0.0,-.5,-1.0,其它,有人值守公用,IP卡,IC卡,小灵通,300电话卡,200电话卡,固定电话,大学本科及以上,大专,高中/中专/技,初中,小学及以下,女性,男性,高收入,中高收入,中等收入,中低收入,低收入,46岁以上,36-45岁,26-35岁,25岁以下,拨打长途电话方式用户特征分析,对应分析可以回答以下问题,谁是我的用户?还有谁是我的用户?谁是我竞争对手的用户?相对于我的竞争对手的产品,我的产品的定位如何?与竞争对手有何差异?我还应该开发哪些新产品?对于我的新产品,我应该将目标指向哪些消费者?,很多情况下,直接、简单地询问被访者选择品牌(属性/价格)问题是不现实的,甚至是没有用的。消费者往往考虑品牌(产品/服务)的所有属性都是重要的。现实生活中,消费者需要对品牌(产品/服务)作出权衡。传统的市场研究方法在处理权衡问题是比较困难的。,例如:如果您要购买一辆汽车,下面哪些因素对您来讲是重要的?,多变量分解技术结合分析,结合分析是基于对产品/服务整体偏好的基础上,采用分解的方法。研究的产品/服务可以是市场上存在的,也可以是现实中不存在的。得到的结果能够更容易、更准确判断产品/服务各种属性的相对重要性。开发新产品的强有力市场研究工具。品牌市场占有率。研究价格弹性。市场细分。新产品开发产品重新定位,全轮廓结合分析 Full Profile Conjoint Analysis,属性(Attributes)品牌描述产品/服务重要特征水平(Level)赋予每一个属性的不同水平轮廓(profile)产品/服务被描述为轮廓,每一个轮廓是由属性以及赋予每一个属性的不同水平组合构成,ProfileA1B2C3,Attribute A,Level A1,A2,or A3,Level B1,or B2,Level C1,C2,or C3,Attribute B,Attribute C,属性和水平的选择,可能的组合数=3324=432轮廓数(卡片)=(3+3+3+2+2+2+2)-7+1=11选定16种 HOLDOUT=4个 共计20张卡片,赛欧轿车,(正交实验设计),价格 10万元人民币 颜色 金属银灰 音响系统 CD机六喇叭扬声系统 售后服务 两年/四万公里 动力系统 五速手动 ABS系统 有 安全气囊 有,卡片14,请问,您购买这种汽车的可能性是?请选择下面的数字,数字越大代表您购买的可能性越大。,赛欧轿车结合分析研究模型,效用值和属性相对重要性群体分析,市场占有率变化分析金属银灰色为例,不同颜色占有率市场分析,(基本型、选装型I、选装型II),研究人员可以根据不同的市场营销目的模拟不同的市场(竞争环境),寻找最佳的市场营销方案估计市场占有率和市场变化针对每一个消费者分析该消费者的不同偏好结构根据消费者的不同背景资料,分析不同子总体的偏好结构根据消费者的效用值进行快速聚类分析,找出具有相同或相似偏好 的消费者,进行市场细分。利润分析价格策略,结合分析的数据分析是非常丰富,全轮廓结合分析的评价,费用:相对较高。复杂性:高。大量的设计和复杂的分析。效用值需要借助统计分析软件。可以处理产品/服务的属性有限,一般10个,太多被访者无法承受。结论:非常丰富。效用值和属性相对重要性。评估不同的产品组合。市场模拟,估计市场占有率,广泛用于解决“作假设推断”的问题。数据质量:较高。可以得到准确的,对产品/服务的属性的判断。大部分属性的评价比较有效。当价格与其它属性不存在交互作用时,效果很好。,离散选择模型 Discrete Choice Model or Choice Based Conjoint Analysis,下面哪种汽车,您最有可能购买?(最喜欢、最偏好),捷达都市先锋自动档ABS安全气囊白色2年/4万公里保修 16.5万RMB,富康998四速手动档ABS安全气囊墨绿色2年/4万公里保修 15.5万RMB,桑塔纳2000五速手动档ABS安全气囊黑色2年/4万公里保修 17.5万RMB,如果只有这里列出的汽车是我仅有的选择的话,我不可能购买任何一种,1,2,3,4,指数函数,Multinomial Logit Model,移动通讯供应商(品牌)价格策略和市场占有率分析案例离散选择模型,品牌和价格,品牌:移动全球通、移动神州行、联通130、联通如意行、联通CDMA价格:0.30元/分钟、0.40元/分钟、0.50元/分钟、0.60元/分钟,市场竞争环境:可能组合=44 44 4=1024 种正交实验设计=16个选择集,费用:最高。要求大样本量。复杂性:非常高。大量的设计和复杂的分析。选择概率,需要借助专用统计分析软件。可以处理产品/服务的属性有限,一般8个,太多被访者无法承受。结论:非常丰富。价格弹性曲线。评估不同的产品组合。市场模拟,估计市场占有率,广泛用于解决“作假设推断”的问题。数据质量:较高。可以得到准确的,对产品/服务的属性的判断。大部分属性的评价比较有效。即使当价格与其它属性存在交互作用时,效果也很好。,离散选择模型的评价,分类树AnswerTree,分类树CHAID,CHAID和CART是最有名的分类树方法。主要用于预测和分类。树根节点是独立变量,例如:使用水平、购买倾向、用户或非用户等。子节点基于独立变量和其他分类变量(父节点),按照卡方显著性不断划分或组合为树状结构。预测变量一般也是非数量型的分类变量。CHAID最常用,但独立变量只能是分类变量,也就是离散性的。CART可以处理数量型变量,有时候二者结合使用。CHAID和CART都可以处理非数量型和定序性变量。SPSS的附加模块叫做ANSWERTREE。分类树方法产生真实的细分类别,这种类是基于一个独立变量。,分类树CHAID,基于目标变量(独立变量)自我分层的树状结构。根结点是因变量,预测变量根据卡方显著性程度不断自动生成父节点和子节点。卡方显著性越高,越先成为预测根结点的变量。程序自动归并预测变量的不同类,使之成为卡方显著性。程序根据预先设定的树状水平数停止。最后每一个叶结点就是一个细分市场。当预测变量较多且都是分类变量时,CHAID分类最适宜。预测变量大部分都是人口统计资料,使研究者很快就可以找出不同细分市场特征。传统的交互分析对多维交叉表和归并类是一项繁重的工作。,CHAID的操作步骤,建立AnswerTree项目指定CHAID分类树规定目标变量和预测变量设定预测变量的测量等级,非数量型变量可预先合并分类。规定树状结构的水平数。指定节点包含的最小样本数量。自动生成分类树。考察分类树的结构。分析Gain Table.分析错误分类风险比。重新设定分类树参数。生成SQL语言,将样本归类。,结构方程式的基本模型,结构方程式模型假定在一组潜在变量中存在因果关系,这些潜在变量可以分别用一组可观测的变量表示。假设的模型通常包括某个基本线性回归模型和很多观测变量,而这个基本的线性回归模型应该是一组潜在变量的结构关系模型。这一组潜在变量分别是那些观测变量中的某几个的线性组合。,结构模型方程式模型的路径图,结构方程式模型就是一个由许多观测变量、潜在变量、残差和误差项相互作用的复杂体系。,市场销量预测和决策模型 Decision Time&What if,时间,历史销售量数据,其它因素:促销+广告+突发事件+季节+竞争对手策略,预测销售量,数据挖掘Data Mining,简单就是美!,谢谢大家!,青苹果出品 必属精品http:/,囊括2007-2010几百G地产策划资料/企业管理人力资源全套/品牌策划资料/行业分析报告/PPT模板等。,