商业分析第6章商业数据分析方法.ppt
《商业分析第6章商业数据分析方法.ppt》由会员分享,可在线阅读,更多相关《商业分析第6章商业数据分析方法.ppt(87页珍藏版)》请在三一办公上搜索。
1、,商 业 分 析,-商业数据的分析、挖掘和应用,华东师范大学出版社,第6章 商业数据分析方法,本章主要内容,回归分析介绍回归分析是处理变量之间关系的一种统计方法和技术,其基本思想、方法以及“回归(Regression)”名称的由来都要归功于英国统计学家FGalton(18221911)。,回归分析,回归分析主要解决以下几方面的问题:通过分析大量的样本数据,确定变量之间的数学关系式。对所确定的数学关系式的可信程度进行各种统计检验,并区分出对某一特定变量影响较为显著的变量和影响不显著的变量。利用所确定的数学关系式,根据一个或几个变量的值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确度
2、。,回归分析,一元线性回归分析一元线性回归分析是在排除其他影响因素或假定其他影响因素确定的条件下,分析某一个因素(自变量)是如何影响另一事物(因变量)的过程,所进行的分析是比较理想化的。其实,在现实社会生活中,任何一个事物(因变量)总是受到其他多种事物(多个自变量)的影响。,回归分析,一元线性回归模型的确定,回归分析,利用t检验和F检验分别检验回归系数和一元线性回归方程是否显著。如两者均显著,说明该数据可以用一元线性回归模型来拟合,否则要考虑其他模型,呈线性关系,不呈线性分布,回归模型的显著性检验问题通过样本数据建立一个回归方程后,不能立即用于对某个实际问题的预测。因为,将应用最小二乘法求得的
3、样本回归直线作为对总体回归直线的近似,这种近似是否合理必须通过各种统计检验。一般经常使用以下的统计检验。,回归分析,回归系数的显著性检验(t检验)所谓回归系数的显著性检验,就是根据样本估计的结果对总体回归系数的有关假设进行检验,也就是检验斜率。回归系数显著性检验的基本步骤,回归分析,Eg.一元线性回归回归模型:y=0+1x+(x为自变量,y为因变量,0为截距,1为斜率(回归系数),为误差变量。)指定 H0:1=0;备择假设为H1:10检验统计量为:其中,Sb1是b1的标准偏差(标准误差),,回归分析,(为标准误差),如果误差变量服从正态分布,那么检验统计量服从自由度为n-2的t分布。拒绝域为。
4、当原假设为真,就说明两个变量间没有线性关系;当备选假设为真,则两个变量存在某种线性关系。SPSS的实际操作中,我们只要关注t检验的显著性(Significance)值(sig值)。我们一般将这个sig值与0.05比较,当sig值小于0.05,我们认为差别显著;当sig值大于0.05,我们认为差别不显著;sig值越小,说明差别越显著,回归系数越显著。,回归分析,拟合优度检验回归方程的拟合优度检验就是要检验样本数据聚集在样本回归直线周围的密集程度,从而判断回归方程对样本数据的拟合程度。回归方程的拟合优度检验一般用判定系数(Coefficient of Determination)实现,用R2表示。
5、该指标建立在对总离差平方和进行分解的基础之上。测定多元线性回归的拟合程度,与一元线性回归中的判定系数类似,使用调整后的判定系数。,回归分析,拟合优度检验,回归分析,yi和 的离差可以进一步分解为两部分,如果对等式两边各项求平方,并把所有样本点加起来,进行一些代数运算可得,方程的左边衡量了因变量y的差异。方程右边的第一项用SSE表示,第二项用SSR表示,为回归平方和(Sum of Squares for Regression,SSR),Y的差异=SSE+SSR,因此将差异分解为两个部分:SSE度量y中不可解释的差异部分;SSR度量y中可以被自变量x的差异解释的差异部分。把这个分析过程整合到R2的
6、定义中去:因此,R2衡量了y的差异中能够被x的差异解释的部分在总差异中所占的比例。一般来说,R2的值越大,模型拟合数据的效果就越好。,回归分析,回归方程的显著性检验(F检验)回归方程的显著性检验是对因变量与所有自变量之间的线性关系是否显著的一种假设检验。回归方程的显著性检验一般采用F检验,利用方差分析的方法进行。检验统计量为:拒绝域为:,回归分析,因变量的总差异可以分解为可解释的差异和不可解释的差异两个部分:而F=MSR/MSE,因此,若F值较大,表明因变量的总差异中可被回归方程解释的部分所占的比例较大,回归模型有效在SPSS软件的实际操作中,我们也主要观察它的sig值,只要sig小于0.05
7、,我们就认为回归模型是显著的,回归分析,多元线性回归分析一元线性回归问题只涉及了一个自变量,但在实际问题中,影响因变量的因素往往有多个。在线性相关条件下,研究两个或两个以上自变量对一个因变量的数量变化关系,称为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。多元线性回归模型是一元线性回归模型的扩展,其基本原理与一元线性回归模型类似,只是在计算上更为复杂,一般需借助计算机来完成。多元线性回归模型的确定时常用逐步回归方法(Stepwise)。,回归分析,逐步回归法是对全部的自变量(X1,X2,Xp)对Y贡献的大小进行比较,并通过F检验法选择偏回归平方和显著的变量进入回归方程,每
8、一步只引入一个变量,同时建立一个偏回归方程。,回归分析,在引入了两个自变量以后,便开始考虑是否有需要剔除的变量,当回归方程中的所有自变量对Y都有显著影响而不需要剔除时,不论引入还是剔除一个变量都被称为一步。不断重复这一过程,直至无法剔除已引入的变量,也无法再引入新的自变量,逐步回归过程结束,多元线性回归中还需要注意多元共线性问题。多重共线性指自变量间存在线性相关关系,即一个自变量可以用其他一个或几个自变量的线性表达式进行表示。多元共线性会有两个不利影响:1.估计回归系数时会产生较大的抽样误差2.会影响系数的t检验,使依据t检验做出的是否线性相关的推断发生错误。,回归分析,为了避免或者修正多元共
9、线性,我们采用两种方法:1.在建立模型时要尽可能确保自变量之间的相互独立性2.另一个是逐步回归只有当某个自变量能够改变模型的拟合效果时,才把它放在模型中。如果两个自变量强烈相关,那么要对自变量进行合并或将重复的自变量删除,才可以最小化多元共线性的影响。,回归分析,实际运用中多重共线性主要有以下几种类型表现:1.整个模型的方差分析检验结果为(为显著性水平),但各自变量的偏回归系数的统计学检验结果却是;2.专业上认为应该有统计学意义的自变量检验结果,却无统计学意义;3.自变量的偏回归系数取值大小甚至符号明显与实际情况相违背,难以解释;4.增加或删除一个自变量或一条记录,自变量偏回归系数发生较大变化
10、。,回归分析,对于多重共线性的识别,可以通过SPSS中Statistics(统计量)子对话框中的Collinearity Diagnostics(共线性诊断)复选框予以实现。复选框Collinearity Diagnostics提供以下统计量:1.容忍度(Tolerance)2.方差膨胀因子(Variance Inflation Factor,VIF)3.特征根(Eigenvalue)4.条件指数(Condition Index),回归分析,含虚拟自变量的回归分析数量变量、定量变量或数量因素:可以直接用数字计量的因变量和自变量,即可以获得实际观测值(如收入、支出、产量、国内生产总值等)非数量型
11、的变量:性别、民族、职业、文化程度、地区、正常年份与干旱年份、改革前与改革后等定性变量定性变量作数量化处理:引进只取“0”和“1”两个值的虚拟自变量。当某一属性出现时,虚拟变量取值为“1”,否则取值为“0”。对于包含一个具有k种特征或状态的质因素的回归模型,如果回归模型没有常数项,则需引入k个01型虚拟变量D;如果有常数项,则只需引入k1个01型虚拟变量D。当k=2时,只需要引入一个01型虚拟变量D。,回归分析,含调节变量的回归分析如果变量Y与变量X有关系,并且这个关系受到第三个变量M的影响,那么变量M就是调节变量。调节变量影响自变量和因变量之间的关系,既可以是定性的(比如性别、受教育程度等)
12、,也可以是定量的(比如年龄、工资收入),它影响自变量和因变量之间关系的方向(正负)和程度(强弱)。,回归分析,简要模型:Y=aX+bM+cXM+e Y与X的关系由回归系数a+bM来刻画,它是M的线性函数,c衡量了调节效应(Moderating Effect)的大小。如果c显著,说明M的调节效应显著。,回归分析,讨论调节变量的调节效应,可分为以下情况:1.当自变量是类别变量,调节变量也是类别变量时,用两因素交互效应的方差分析,交互效应即调节效应;2.当调节变量是连续变量时,自变量使用伪变量,将自变量和调节变量中心化,使用上述公式做层次回归分析:做Y对X和M的回归,得测定系数R21;做Y对X、M和
13、XM的回归得R22,若R22显著高于R21,则调节效应显著。或者,作XM的回归系数检验,若显著,则调节效应显著;3.当自变量是连续变量,调节变量是类别变量时,分组回归应按M的取值分组,做Y对X的回归。若回归系数的差异显著,则调节效应显著,调节变量是连续变量时,同上述公式的层次回归分析。,回归分析,多元线性回归分析在的商业应用案例,回归分析,商业数据的采集,变量的确定,回归方程,模型构建和假设形成,自变量:评论深度(字数)、评论极性(正面或负面)、产品类型因变量:评论有用性H1:商品类型会为评论极性对评论有用性的影响起到显著的调节作用。对于体验型商品,中立评价的作用比极端评价更显著。H2a:负面
14、评论的在线评论有用性大于正面评论。H2b:较体验型商品,正面评论对搜索型商品的有用性更高。H2c:较体验型商品,负面评论对搜索型商品的有用性更高。H2d:较搜索型商品,体验型商品的正面评论与负面评论的有用性差异更大。H3:评论深度对评论有用性具有显著的正向影响作用。H4:商品类型会为评论深度对评论有用性的影响起到显著的调节作用,与体验型商品相比,评论深度对有用性的正向影响在搜索型商品中更为明显。,回归分析,数据来源:卓越亚马逊()研究样本:体验型和搜索型两种商品类型中的6个大类下的12种商品。搜索型商品选择U盘、手机和路由器,体验型商品选择了音乐CD、书籍和化妆品。对商品的基本信息和在线评论进
15、行抓取,主要通过火车头采集器进行每条评论包括以下数据:评论星级;评论总投票数;评论有用票数;评论者;评论时间;评论文本内容根据研究需求对采集到的在线评论进行筛选共得到2157条较高质量的在线评论,回归分析,商业数据的采集,变量的确定,回归方程,模型构建和假设形成,自变量:评论星级Start_Rating;评论深度Review_Depth调节变量:商品类型Product_Type;评论极性Review_Extremity因变量:评论有用性Helpfulness%控制变量:投票总数Total_Votes,回归分析,商业数据的采集,变量的确定,回归方程,模型构建和假设形成,检验H1、H3、H4采用的
16、回归方程:Helpfulness%=0+1Star_Rating+2Review_Depth+3Product_Type+4Total_Votes+5Star_Rating Product_Type+6Review _Depth Product_Type+检验H2a、H2b、H2c、H2d采用的回归方程:Helpfulness%=0+1Product_Type+2Review_Extremity+3Review_Extremity Product_Type+,回归分析,商业数据的采集,变量的确定,回归方程,模型构建和假设形成,回归分析,商业数据的采集,变量的确定,回归方程,模型构建和假设形成,
17、调整后的R2=0.384,达到同类研究水平,方程拟合度较高,p值=0.000表明各指标对评论有用性存在显著的影响,回归分析,商业数据的采集,变量的确定,回归方程,模型构建和假设形成,为进一步探究搜索型商品与体验型商品的具体调节作用,分别对其进行多元线性回归分析对于体验型商品,评论星级Star_Rating(p=0.000)和Star_Rating2(p=0.018)对评论有用性有显著影响。对于搜索型商品,评论星级Star_Rating(p=0.069)对评论有用性没有显著影响,而Star_Rating2(p=0.035)对评论有用性有显著影响。假设H1成立,即商品类型会使评论极性对评论有用性的
18、影响起到调节作用,且对于体验型商品,中立评价的作用比极端评价更显著。,回归分析,商业数据的采集,变量的确定,回归方程,模型构建和假设形成,0,回归分析,商业数据的采集,变量的确定,回归方程,模型构建和假设形成,0,回归分析,商业数据的采集,变量的确定,回归方程,模型构建和假设形成,体验型商品和搜索型商品,p值0.05,且系数均为正,表明评论长度越长,有用性越高,即评论深度会对评论有用性产生显著的正向影响,假设H3成立。模型输出结果中Review_Depth Product_Type(p=0.009)可知商品类型使评论深度对评论有用性的影响起到显著调节作用,而其系数为正,则评论深度对评论有用性的
19、正向影响作用在搜索型商品中更为明显,假设H4成立。商品类型与评论极性的交互影响会影响到在线评论的有用性,我们发现在体验型商品中,中立评价比极端评价(无论是正面评论还是负面评论)更有用。与体验型商品相比较,获取搜索型商品的客观信息对于消费者更加便利有用,消费者在浏览在线评论时会更多地关注字数较多的评论,从中达到了解商品优劣的目的。,6.2.1 Logistic回归简介线性回归中的因变量是定量变量,但是当因变量的取值为两个或两个以上的定性变量时,之前介绍的回归模型就无法解决了。而事实上,无论是在社会科学还是经济生活中,我们常常会遇到这种情况(男性还是女性?买还是不买?用户购买某商品是受何种因素影响
20、:年龄?性别?收入水平?)。因为这些定性变量的误差项不呈现正态分布,不能够满足线性回归要求的正态分布假设,而且普通线性回归模型的预测值可能不在01之间,无法解释某件事件发生的概率。,6.2 Logistic回归简介,能否建立类似于线性回归的模型,对这种数据加以分析?以最简单的二分类因变量为例来加以探讨,为了讨论方便,常定义出现阳性结果时因变量取值为1,反之则取值为0。例如当领导层出有女性职员、下雨、痊愈、是潜在消费者时反应变量y1,而没有女性职员、未下雨、未痊愈时y0。记出现阳性结果的频率为p(y1)。很显然,。,6.2.1 Logistic回归简介,Logistic回归是对定性变量的回归分析
21、。可用于处理定性因变量的统计分析方法有:判别分析(Discriminant Analysis)、Probit分析、Logistic回归分析和对数线性模型等。Logistic回归分析根据因变量取值类别不同,又可以分为二元回归(Binary Logistic)分析和多元回归(Multinomi-nal Logistic)分析。Binary Logistic回归模型中因变量只能取两个值1和0(虚拟因变量),而Multinomial Logistic回归模型中因变量可以取多个值。,6.2.1 Logistic回归简介,Logistic回归属于多重变量分析的范畴,其实质是利用概率的形式,通过Logit函
22、数变换,将自变量与非连续性的因变量的关联转化为特定的对数线性关系。这种回归方法一方面避免了对变量类型和变量分布的严格限定,另一方面又能保留线性回归的直观性,从而更好地对因变量的影响因素进行分析和筛选,对因变量的产生进行描述和预测。,6.2.1 Logistic回归简介,Logistic回归的用途可归纳为三个方面:寻找影响因素:根据不同的研究目的,分析寻找影响研究结果的因素,即寻找定性因变量。预测:建立logistic回归模型,根据模型,预测在不同的因变量情况下,发生某些情况的概率有多大。如银行可以根据用户的年龄、性别、购房、贷款信息等预测客户还款情况。判别:实际上跟预测有些类似,也是根据log
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 商业分析第6章 商业数据分析方法 商业 分析 数据 方法
链接地址:https://www.31ppt.com/p-4827539.html