多元统计分析教案.ppt
2023/10/11,MULTIVARIATE STATISTICS ANALYSIS 多元统计分析,2023/10/11,0 多元正态分布,2023/10/11,多元正态分布密度函数,2023/10/11,多元正态分布的数字特征,2023/10/11,多元正态分布的性质,2023/10/11,多元正态分布的参数估计,2023/10/11,2023/10/11,一、什么是多元统计分析,多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法,是一元统计学的推广。多元统计分析是研究多个随机变量之间相互依赖关系以及内在统计规律的一门统计学科。,2023/10/11,多元统计分析优点:分析问题更全面更透彻 能使我们对所研究的问题更全面,更深刻的认识.帮助我们透过现象看本质,发观事物之间内在的本质规律。,2023/10/11,二、多元统计分析的内容和方法,1、简化数据结构(降维问题)将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到简化但损失的信息又不太多。(1)主成分分析(2)因子分析(3)对应分析等,2023/10/11,例1:对上市公司治理好坏的评价,通常选用指标有:公司股权集中度(X1)、股权性质(X2)、经理人持股比例(X3)、经理人薪酬(X4)、经理人是否兼任董事长一职(X5)、董事会规模(X5)、独立董事比例(X6)等等指标,2023/10/11,指标与指标可能存在相关关系 信息重叠,分析偏误指标太多,增加问题的复杂性和分析难度 如何避免?选用主成分分析或因子分析,2023/10/11,例2:美国的统计学家斯通(stone)在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。,2023/10/11,运用主成分分析以97.4的精度,用三新变量就取代了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入F1、总收入变化率F2和经济发展或衰退的趋势F3。更有意思的是,这三个变量其实都是可以直接测量的。斯通将他得到的主成分与实际测量的总收入I、总收入变化率I以及时间t因素做相关分析,得到下表:,2023/10/11,2023/10/11,主成分分析得到的主成分(新变量)与原始变量之间的关系:1、主成分保留了原始变量绝大多数信息。2、主成分的个数大大少于原始变量的数目。3、各个主成分之间互不相关。4、每个主成分都是原始变量的线性组合。,2023/10/11,2、分类与判别(归类问题)对所考察的变量按相似程度进行分类。(1)聚类分析:根据分析样本的各研究变量,将性质相似的样本归为一类的方法。(2)判别分析:判别样本应属何种类型的统计方法。,2023/10/11,例3:根据信息基础设施的发展状况,对世界20个国家和地区进行分类。考察指标有6个:1、X1:每千居民拥有固定电话数目 2、X2:每千人拥有移动电话数目 3、X3:高峰时期每三分钟国际电话的成本 4、X4:每千人拥有电脑的数目 5、X5:每千人中电脑使用率 6、X6:每千人中开通互联网的人数,2023/10/11,分析结果:将20个国家分为两类 第1类(基础设施落后):巴西、墨西哥、波兰、匈牙利、智利、俄罗斯、泰国、印度、马来西亚 第2类(基础设施发达):瑞典、丹麦、美国、中国台湾、韩国、日本、德国、法国、新加坡、英国、瑞士,2023/10/11,如果:我们想知道我国基础设施发展属于哪一类型?运用判别分析 依据:20个国家的分类结果,2023/10/11,3、变量间的相互联系 一是:分析一个或几个变量的变化是否依赖另一些变量的变化。(回归分析)二是:两组变量间的相互关系(典型相关分析),2023/10/11,4、多元数据的统计推断 点估计 参数估计 区间估计 统 u检验 计 参数 t检验 推 F检验 断 假设 相关与回归 检验 卡方检验 非参 秩和检验 秩相关检验,2023/10/11,三、多元统计的发展,起源于:20世纪20年代 1928年威沙特(Wishart)发表的多元正态总体样本协方差矩阵的精确分布为开端30年代多元分析在理论上得到迅速发展 费希尔(Fisher)、霍特林(Hotelling)等进一步发展多元统计。40年代在心理学、教育学等领域进行应用 因计算量大,发展受到影响,2023/10/11,20世纪50年代中期,多元统计在地质、气象、医学、社会学等方面得到广泛应用 因计算机的出现和发展我国:70年代初期才开始重视多元统计在各领域的应用,2023/10/11,四、多元统计的应用,1、教育学2、医学3、气象学4、环境科学5、地质学6、考古学7、经济学8、社会科学等等,2023/10/11,教育学:测试学生入学后的考试成绩与入学考试成绩的相关关系?现行教育模式是否合理?经济学:如:衡量一个地区的经济发展情况,需观测的指标有:人均收入、就业率、物价、信贷、税收、年财政收入、基础设施建设等等。,2023/10/11,医学:通过检测:血压、心脏脉搏跳动的次数、白血球等等,判定一个人是有病还是没病?根据某病人的体温、白血球、恶心、呕吐、腹部压疼感等判别此人是患何种类型阑尾炎?急性、慢性、有无穿孔?,2023/10/11,气象学:根据目前空气湿度、风向、风力等指标判断未来24小时内天气情况社会学:随着经济的发展,居民的幸福感是增强呢还是减弱呢?农民工的工资支付情况是否明显好转?,2023/10/11,文学:红楼梦前80回和后40回是否出自同一作者?,2023/10/11,五、多元分析的基本步骤,1、研究什么问题?明确分析的问题2、如何获取数据?3、如何分析数据?4、如何解释分析结果?,2023/10/11,在前期的准备过程中要注意两点:1、样本量要足够的大!一般认为,样本数是研究变量个数的10倍左右。2、变量类型及其数量化,定量变量 是对研究单位的定量特征的描述。诸如个体年龄、身高、体重等变量均可经测量取得数值。将这类变量视为连续型变量,或定量变量。定性变量 是对研究单位的定性特征的描述,有类别。亦称分类变量.如性别分男、女为二分类变量。血型可分为A、B、AB、O四类型,为四分类变量。,