管理信息学第6章.ppt
《管理信息学第6章.ppt》由会员分享,可在线阅读,更多相关《管理信息学第6章.ppt(42页珍藏版)》请在三一办公上搜索。
1、2023/6/23,6.3.1 多元数据的相关分析 6.3.2 聚类分析 6.3.3 判别分析 6.3.4 回归分析 6.3.5 时间序列分析,6.3 信息处理的统计学方法,2023/6/23,信息处理是使用适当的信息处理方法从样本数据集中自动抽取有用的规则(知识)。针对不同的处理目标,支持信息处理的方法概括起来可分为:统计学方法、人工智能方法、数据库技术及可视化技术等几类。在实际应用中,信息处理方法往往是集成多项技术。,6.3 信息处理的统计学方法,2023/6/23,信息加工的统计学方法,2023/6/23,多元数据的相关分析 多元数据是指含有多个随机变量(常对应信息系统中的属性)的一组数
2、据,多元数据的相关性分析就是找出各随机变量之间的关联关系。,6.3.1 多元数据相关分析,一切客观事物都是相互联系的,任一事物的变化都与其周围的其他事物相互联系和相互影响。客观现象之间的相互联系,可以通过一定的数量关系反映出来。现象之间的关系形态有两种类型:函数关系和统计相关关系。,多元数据相关分析,统计相关关系是变量之间存在的不完全确定性的关系。在实际问题中,许多变量之间的关系并不是完全确定的,例如居民家庭消费与居民家庭收入这两个变量的关系就不是完全确定的。,多元数据相关分析,相关的种类,2023/6/23,聚类分析 聚类分析是把研究对象按照一定的规则分成若干类别,并使类之间的差别尽可能地大
3、,类内的差别尽可能地小,换句话说,使类间的相似性最小、而类内的相似性最大。聚类方法的核心问题是样本间的相似性度量,通常用距离来度量。,6.3.2 聚类分析,2023/6/23,聚类分析中的常用距离(1)欧氏(Euclidean)距离(2)绝对距离(3)Minkowski距离显然当m=1时就是绝对距离,m=2时就是欧氏距离。在实际应用时常分析两个样本之间的相对距离,这时需要对样品数据进行标准化处理,然后用标准化数据计算距离。,聚类分析,2023/6/23,谱系聚类法 谱系聚类法是根据给定数据集产生一个层次结构。其基本过程是:开始每个样品各成一类,然后相继将两个最近的类合并成一个新类,直到所有的样
4、品成为一个总类,从而得到一个按相似性大小聚集起来的一个谱系图。,聚类分析,2023/6/23,聚类分析,2023/6/23,动态聚类法 动态聚类法是对于给定的 n 个样本,先粗略地形成 k(kn)个类、每个类至少有一个样本并且每个样本精确地属于一个类,然后按照某种原则进行修正,直至分类比较合理为止。,聚类分析,2023/6/23,动态聚类演示,聚类分析,2023/6/23,聚类分析的方法可以应用在很多领域,尤其在商业领域中正在越来越多地使用该方法。例如在销售业企业,聚类分析可被用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征。消费同一种类的商品或服务时,不同的客户群有不同的消费特点
5、,通过研究这些特点,企业可以制定出不同的营销组合,从而获取最大的消费者剩余,这就是客户细分的主要目的。聚类分析是细分市场的有效工具,同时也可用于研究消费者行为,寻找新的潜在市场、选择实验的市场等。,聚类分析,2023/6/23,判别分析(分类)判别分析或分类是指在得到一个新的样本数据时,判别该样本所属的类别。距离判别方法朴素贝叶斯(Bayes)判别方法:朴素(naive)贝叶斯判别法是依据数据点属于各类的可能性大小对数据点进行分类,采用的准则是把数据点分到可能性最大的类。,6.3.3 判别分析,2023/6/23,回归分析 回归分析是应用极其广泛的数据分析方法,它基于样本数据建立变量间适当的依
6、赖关系,以分析数据的内在规律。线性回归模型和非线性回归模型等。,6.3.4 回归分析,2023/6/23,回归分析研究一个或多个随机变量Y1,Y2,Yi 与另一些变量X1,X2,Xk 之间的依赖关系。通常称Y1,Y2,Yi 为因变量,X1,X2,Xk 为自变量。当因变量和自变量为线性关系时,它是一种特殊的线性模型。最简单的情形是一个自变量和一个因变量,这叫一元线性回归,即模型为Y=a+bX+,这里 X 是自变量,Y 是因变量,是随机误差,,回归分析,2023/6/23,图 大白鼠的进食量与增加体重回归直线,回归分析,2023/6/23,回归分析在管理决策中的应用主要体现在以下两个方面:(1)因
7、素分析。在现实生活中,某一项结果的产生,可能是很多个因素共同作用的结果。例如在医学研究中,有关生存与死亡,发病与未发病,阴性与阳性等结果的产生可能与病人的年龄、性别、生活习惯、遗传、病史等许多因素有关。使用回归分析,我们可以发现到底是哪些因素对结果产生了影响,从而帮助我们做出正确的判断。(2)预测。预测经常取决于对两个或更多个变量的分析。其中,两个变量之间的回归分析称为一元回归,三个或三个以上变量之间的回归分析称为多元回归。例如,广告费和销售收入之间的关系是一元回归,而消费支出与收入及商品价格之间的关系则是多元回归。,回归分析,2023/6/23,时间序列分析 时间序列是按时间序列排列的、随时
8、间变化且相互关联的数据序列(趋势性、季节性、随机性),时间序列分析就是通过对时间序列样本进行分析,构造事件发生的数学模型,从而达到认识事物、了解其变化规律的目的。当模型建立完成后就能根据模型对事件进行预测或控制。,6.3.5 时间序列分析,2023/6/23,2023/6/23,时间序列分析方法算术平均法设长度为 n 的时间序列样本为x1,x2,xn。则下一个时间点的预测值为:这种方法只适合时间序列比较稳定的情况,它不能反映时间序列的变化趋势和季节变动。,时序分析,2023/6/23,移动平均法 移动平均法基于假设未来的序列与近期的序列有关,而与过去较远的序列关系不大。移动平均法的分析思路是每
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 管理 信息学
链接地址:https://www.31ppt.com/p-5293699.html