大数据之数据分析ppt课件.pptx
《大数据之数据分析ppt课件.pptx》由会员分享,可在线阅读,更多相关《大数据之数据分析ppt课件.pptx(11页珍藏版)》请在三一办公上搜索。
1、数据分析,郭现伟,数据分析知识点,监督学习和非监督学习,监督学习监督学习针对有标签数据集,它通过学习出一个模型(其实就是一个函数)来拟合数据,按照模型(函数)的输出结果是否离散又可以分为两类,分别是:(1)输出结果为离散值,则为分类问题(常见的分类算法:KNN、贝叶斯分类器、决策树、SVM、神经网络、GBDT、随机森林等);(2)输出结果为连续值,则为回归问题(有线性回归和逻辑回归两种)。无监督学习无监督学习针对没有标签的数据集,它将样本按照距离划分成类簇,使得类内相似性最大,类间相似性最小。通过观察聚类结果,我们可以得到数据集的分布情况,为进一步分析提供支撑。常见的聚类算法有K-means、
2、高斯混合模型和LDA。如何选择有监督和无监督?1、是否有标签和训练数据2、数据条件是否可改善3、看样本是否独立分布,数据分析常用算法,数据分析算法,回归算法回归分析是一种预测性的建模技术。它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。例如:司机的鲁莽驾驶与道路交通事故数量之间的关系;比如股票价格受到利率、GDP等的影响。分类算法分类是找出数据中的一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到摸个给定的类别中。可以应用到涉及到应用分类、趋势预测中。例如:淘宝商铺将用户
3、在一段时间内的购买情况划分成不同的类,根据情况向用户推荐关联类的商品,从而增加商铺的销售量。聚类算法聚类类似于分类,但与分类的目的不同,是针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间的相似性很大,但不同类别之间数据的相似性很小,跨类的数据关联性很低。针对客户特征进行客户群划分。由此,我们可以对不同客户群采取差异化的促销方式,如:航空客户价值分析。关联规则算法关联规则是隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现。关联规则的挖掘过程主要包括两个阶段:第一阶段为从海量原始数据中找出所有的高频项目组;第二极端为从这些高频项目组产生关联规则
4、。如:分析发现购买面包的顾客中有很大比例的人同时购买牛奶,由此我们可以将牛奶与面包放在同一个地方,回归算法,线性回归 使用最佳的拟合直线(也就是回归线)在因变量(Y)和一个或多个自变量(X)之间建立一种关系。逻辑回归 用来计算“事件=Success”和“事件=Failure”的概率。当因变量的类型属于二元(1 / 0,真/假,是/否)变量时,我们就应该使用逻辑回归。多项式回归 对于一个回归方程,如果自变量的指数大于1,那么它就是多项式回归方程。如下方程所示:y=a+b*x2,在这种回归技术中,最佳拟合线不是直线。而是一个用于拟合数据点的曲线。逐步回归 在处理多个自变量时,我们可以使用这种形式的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 ppt 课件

链接地址:https://www.31ppt.com/p-1327836.html