大数据统计分析技术.ppt
第四章 大数据统计分析技术,4.1 统计分析概述4.1.1 统计分析的概念4.1.2 统计分析的特点4.1.3 统计分析的应用4.2 统计分析的常见指标4.2.1 统计指标概述4.2.2 总量指标4.2.3 相对指标4.2.4 平均指标4.2.5 变异指标4.3 回归与预测4.3.1 回归4.3.2 预测实验4 数据分析,本章内容,4.1 统计分析概述,4.1.1 统计分析的概念,统计分析是指运用统计方法及与分析对象有关的知识,定量与定性相结合对样本数据进行的研究活动。,4.1大数据统计分析的核心思想,4.1.1统计分析的概念,大数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用的信息以及对数据加以详细研究和概括总结的过程。,4.1大数据统计分析的核心思想,4.1.1统计分析的概念,统计分析的意义帮助企业了解客户、锁定资源、规划生产、开拓新的业务;通过对消费者爱好、需求以及对品牌忠诚度等因素进行大数据分析,来制定服务和营销的智能决策;通过对通信、金融活动记录的大数据分析,来精准地拓展业务和更好地服务客户,4.1大数据统计分析的核心思想,4.1.2统计分析的特点,传统统计分析的特点 目的与对象相统一 定性与定量相结合 系统性与全面性 原则性能动性 变化性,4.1大数据统计分析的核心思想,4.1.2统计分析的特点,大数据统计分析的特点 宏观与微观相统一 方法理论尚未成熟 全样本采样,实时性分析人才专业性较强能动性 变化性,4.1大数据统计分析的核心思想,4.1.3统计分析的应用,大数据帮能源公司设置发电机地点 丹麦能源公司维斯塔斯(Vestas Wind Systems)将利用业界领先的IBM大数据分析软件和卓越的IBM系统优化风力涡轮机配置方案,从而实现最高效的能量输出。,4.1大数据统计分析的核心思想,4.1.3统计分析的应用,大数据帮零售企业制定促销策略 沃尔玛对其顾客的购物行为进行了购物篮关联规则分析,结果是得到了尿不湿与啤酒的销售量双双增长。,4.1大数据统计分析的核心思想,4.1.3统计分析的应用,大数据对交通行为预测基于用户和车辆的LBS定位数据,分析人车出行的个体和群体特征,进行交通行为的预测。,4.1大数据统计分析的核心思想,4.1.3统计分析的应用,大数据对疾病疫情预测 google成功预测了2009冬季流感的传播甚至可以具体到特定的地区和州。,4.1大数据统计分析的核心思想,4.1.3统计分析的应用,大数据帮助奥巴马大选连任成功 2012年11月奥巴马大选连任成功的胜利果实也被归功于大数据深入数据挖掘。,4.2 统计分析的常见指标,4.2.1统计分析指标概述,统计指标简称指标,是反映同类社会经济现象总体综合数量特征的范畴及其具体数值。对统计指标通常有两种理解和使用方法:一是用来反映总体现象总体数量状况的基本概念,例如年末全国人口总数、全年国内生产总值、国内生产总值年度总长率等。二是反映现象总体数量状况的概念和数值。例如,2001年我国年末总人口数为127,627万人、全社会固定产投资增长率为13%等。,4.2 统计分析的常见指标,4.2.1统计分析指标概述,统计指标特点:总体性 具体性,4.2 统计分析的常见指标,4.2.1统计分析指标概述,统计指标的种类:按统计指标所说明的总体现象内容不同,可分为数量指标和质量指标;按统计指标按作用和表现形式不同,可分为总量指标、相对指标、平均指标、标志变异指标四类;按统计指标的作用和功能的不同,可以分为描述指标、评价指标、监测指标和预警指标;,4.2 统计分析的常见指标,4.2.1统计分析指标概述,统计指标体系是由若干个相互联系、相互作用的统计指标组成的整体,用以说明所研究社会经济现象各方面相互依存和相互制约的关系。通过数学公式形式表现出来的统计指标体系。例如,工业总产值=工业产品产量产品价格商品销售额。指标之间不存在数学公式形式的关系,而只是存在着一种相互联系、相互补充的关系。例如,反映国内商品流转情况的指标(购进量、销售量、调拨量、库存量)所形成的指标体系;,4.2 统计分析的常见指标,4.2.2总量指标,总量指标是反映社会经济现象在一定时间、空间条件下的总规模或总水平的最基本的综合指标,用绝对数表示,因此,总量指标又叫统计绝对数。如某企业去年总工资100万元,去年上半年总工资30万元,相减得去年下半年总工资。比如每年的政府工作报告都会公布关乎国计民生的重要总量指标。,4.2 统计分析的常见指标,4.2.2总量指标,总量指标的作用:是认识社会经济现象的起点;是实行社会经济管理的依据之一;是计算相对指标和平均指标的基础;,4.2 统计分析的常见指标,4.2.2总量指标,总量指标的种类:总体单位总量指标和总体标志总量指标;时期指标和时点指标;,4.2 统计分析的常见指标,4.2.2总量指标,总量指标的计量单位:实物单位;价值单位;劳动单位;,4.2 统计分析的常见指标,4.2.2总量指标,总量指标的计算方法:直接计算法它是对研究对象用直接的计数、点数和测量等方法,登记各单位的具体数值加以汇总,得到总量指标。如统计报表或普查中的总量资料,基本上都是用直接计算法计算出来的。间接推算法它是采用社会经济现象之间的平衡关系、因果关系、比例关系或利用非全面调查资料进行推算总量的方法。如利用样本资料推断某种农产品的产量,利用平衡关系推算某种商品的库存量等。,4.2 统计分析的常见指标,4.2.3 相对指标,相对指标又称相对数,是应用对比的方法,将两个相互联系的指标数值加以对比计算的一种比值,用来说明现象之间的数量对比关系。其数值表现为相对数,如比重、比例、速度、程度、密度。比如2008年6月27日国内外主要钢铁企业的PE估值对比。相对数指标计算公式为:相对指标=分子/分母(基数),4.2 统计分析的常见指标,4.2.3 相对指标,相对指标又称相对数,是应用对比的方法,将两个相互联系的指标数值加以对比计算的一种比值,用来说明现象之间的数量对比关系。其数值表现为相对数,如比重、比例、速度、程度、密度。比如2008年6月27日国内外主要钢铁企业的PE估值对比。相对数指标计算公式为:相对指标=分子/分母(基数),4.2 统计分析的常见指标,4.2.3 相对指标,相对指标的作用:反映现象之间的相互联系程度,说明总体现象的质量、经济效益和经济实力情况。使原来不能直接相比的数量关系变为可比,有利于对所研究失误进行分析比较。表明事物的发展程度、内部结构以及比例关系,为人们深刻认识事物提供依据。,4.2 统计分析的常见指标,4.2.3 相对指标,相对指标的种类和计算原则(1)同一总体内部之比的相对指标计划完成程度相对指标:是用现象在某一段时间内同一总体的实际完成数与计划数对比的相对数,一般用百分数表示,基本公式为:,4.2 统计分析的常见指标,4.2.3 相对指标,(1)同一总体内部之比的相对指标结构相对指标:结构相对指标(又称比重)是利用分组法,将总体区分为不同特征的各部分,以部分总量与总体总量对比求得比重或比率来反映总体内部组成状况的综合指标。它是分组的基础上计算出来的一种相对数。基本公式为:,4.2 统计分析的常见指标,4.2.3 相对指标,相对指标的种类和计算原则(1)同一总体内部之比的相对指标比例相对指标:比例相对指标是在总体分组的基础上,各组成部分之间的数量对比的比值,反映总体内部的比例关系。是同一总体内不同部分之比,基本公式为:,4.2 统计分析的常见指标,4.2.3 相对指标,相对指标的种类和计算原则(1)同一总体内部之比的相对指标动态相对指标:动态相对指标是同一总体中同一指标在不同时间上的指标数值对比,以表明现象的发展速度。统计上把用来作为比较标准的时期称为基期,把和基期对比的时期称为报告期,计算公式为:,4.2 统计分析的常见指标,4.2.3 相对指标,(2)两个总体之间对比的相对指标比较相对指标:就是由不同单位的性质相同的指标对比而确定的相对指标,说明某一种现象在同一时间内各单位发展的不平衡程度。一般用百分数、系数或倍数表示,计算公式为:,4.2 统计分析的常见指标,4.2.3 相对指标,(2)两个总体之间对比的相对指标强度相对指标:不属于同一总体的两个性质不同但相互间有联系的总量指标对比的比值,用来反映现象的强度、密度和普遍程度、利用程度的综合指标,计算公式为:,4.2 统计分析的常见指标,4.2.3 相对指标,例如,某工厂生产产品A,全年计划生产100台,到三季度结束分别生产了90台。最后全年生产了120台。去年全年生产了90台。今年这个单位共100名员工,男60人。另外一家生产相同产品的厂家,今年年产量是80台。求计划完成相对指标、执行进度相对指标、结构相对指标、比例相对指标、动态相对指标、比较相对指标、强度相对指标,则有:计划完成相对指标=120/100=120%;执行进度相对指标=90/100=90%结构相对指标=60/100=60%;比例相对指标=60/(100-60)=150:100动态相对指标=120/90=133.3%;比较相对指标=120/80=150%强度相对指标=100/100=1(台/人)正负。,4.统计分析的常见指标,4.2.4 平均指标,平均指标的概念平均指标是以反映总体的一般水平的综合指标,又称平均数,它是将一个总体内各个单位在某个数量标志上的差异抽象化,以反映这个总体一般水平的综合指标。比如2014年度北京市职工平均工资(又称社会平均工资)为7.76万元,月平均工资为6463元。,4.2 统计分析的常见指标,4.2.4 平均指标,平均指标的特点:平均指标是个代表值,代表总体各单位标志值的一般水平;把总体各个单位某一标志数值的差异抵消掉。即总体内各同质单位存在数量差异,但在计算平均数时并不考虑这种差异,即把这种差异平均掉了。平均指标的作用:反映总体各单位标志值分布的集中趋势;用来比较同类现象在不同单位发展的一般水平及同一单位的同类指标在不同时期的发展状况;,4.2 统计分析的常见指标,4.2.4 平均指标,平均指标的分类平均指标分为数值平均指标和位置平均指标。数值平均指标按计算方法分为算术平均数、调和平均数和几何平均数。位置平均平均指标有众数和中位数。,4.2 统计分析的常见指标,4.2.4 平均指标,数值平均指标算术平均数:算术平均数是将总体各个单位的某一标志值相加除以总体单位数求的的标志值,计算公式为:,4.2 统计分析的常见指标,4.2.4 平均指标,数值平均指标加权算术平均数:当变量值已经分组,且各个标志值出现的次数不相同时,就可以采用加权算术平均数的形式计算平均指标,公式:,4.2 统计分析的常见指标,4.2.4 平均指标,数值平均指标调和平均数:在不掌握各组单位数以及总体单位数的情况下,只掌握各组的标志值和各组的标志总量及总体总量的情况下,用此方法。简单调和平均数:加权调和平均数:,4.2 统计分析的常见指标,4.2.4 平均指标,数值平均指标几何平均数:几何平均数是用n个变量相乘开n次方的算术根来计算的平均数,在统计中,几何平均数常用于计算平均速度和平均比率。简单几何平均数:加权几何平均数:,4.2 统计分析的常见指标,4.2.4 平均指标,位置平均指标中位数:是根据变量值的位置来确定的平均数。将变量值按大小顺序排序,处于中间位置的变量值(或数据),公式为:,4.2 统计分析的常见指标,4.2.4 平均指标,位置平均指标中位数:是根据变量值的位置来确定的平均数。将变量值按大小顺序排序,处于中间位置的变量值(或数据),公式为:,4.2 统计分析的常见指标,4.2.4 平均指标,位置平均指标众数是指总体中出现次数最多的标志值,用表示。众数也是一种位置平均数,近似计算公式为:,4.2 统计分析的常见指标,4.2.5 变异指标,变异指标又称标志变动指标,它反映了总体各单位标志值的差异程度,它是说明总体标志值的变异、离散程度。例如用于股市投资分析的MACD指标(指数离差指标)。变异指标的作用反映变量分布的离散趋势;反映平均数的代表性,总体单位变量值的离中趋势;量度事物发展均衡性。,4.2 统计分析的常见指标,4.2.5 变异指标,变异指标又称标志变动指标,它反映了总体各单位标志值的差异程度,它是说明总体标志值的变异、离散程度。例如用于股市投资分析的MACD指标(指数离差指标)。变异指标的作用反映变量分布的离散趋势;反映平均数的代表性,总体单位变量值的离中趋势;量度事物发展均衡性。,4.2 统计分析的常见指标,4.2.5 变异指标,变异指标的种类与计算 全距(极差):总体各单位标志值中最大值和最小值的差距。它最简明地说明标志值的变动范围,计算公式为:平均差:总体各单位标志值与平均数离差绝对值的平均数。它表示总体各标志值与平均数的平均差异程度,用A.D表示平均差。,4.2 统计分析的常见指标,4.2.5 变异指标,全距(极差):总体各单位标志值中最大值和最小值的差距。它最简明地说明标志值的变动范围,计算公式为:平均差:总体各单位标志值与平均数离差绝对值的平均数。它表示总体各标志值与平均数的平均差异程度,用A.D表示平均差。,4.2 统计分析的常见指标,4.2.5 变异指标,方差和标准差:方差和标准差是测度标志变异最重要最常用的指标,它以变量值与平均数的离差平方为基础,讨论平均数的代表性,是变量值与平均数的离差平方的平均数,标准差用表示。,4.3 回归与预测,4.3.1回归,回归的概念一般说来,回归就是在分析自变量和因变量之间相关关系的基础上,建立变量之间的方程。回归的本质是一种数学模型,通过建立变量间适当的依赖关系,以分析数据内在规律,并可用于预报、控制等问题,4.3 回归与预测,4.3.1回归,4.3回归与预测,4.3.2预测,统计预测属于预测方法研究范畴,即如何利用科学的统计方法对事物的未来发展进行定量推测,并计算概率置信区间。是一种具有通用性的方法。最简单的预测方法就是回归预测,即将回归方程作为模型,根据自变量在预测期的数量变化来预测因变量值。,4.3回归与预测,4.3.2预测,预测步骤:确定变量:明确预测的具体目标,也就确定了因变量。建立模型:依据自变量和因变量的历史统计资料进行计算,在此基础上建立回归分析方程,即回归分析预测模型。进行分析:回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理。只有当变量与因变量确实存在某种关系时,建立的回归方程才有意义。,谢 谢!,