市场调查数据的数理推断分析.ppt
市场调查数据的数理推断分析,第5章,1,本章主要介绍利用 Excel 进行数据推断的方法,包括参数估计、假设检验、方差分析、相关和回归分析。所使用的函数为 RAND。,本章简介,本章重点,重点、难点,参数估计,假设检验,相关和回归分析。,本章难点,使用数据分析工具进行数据推断分析。,2,本章目录,3,5.1.2 使用随机数生成函数实现随机抽样,5.1.1 利用 EXCEL数据分析功能实现随机抽样,5.1 随机抽样,4,5.1.1 利用EXCEL数据分析功能实现随机抽样,实现随机抽样有两种方法:,利用 Excel 数据分析功能实现随机抽样。,使用随机数生成函数实现随机抽样。,例5-1,图5-1 是80 名学生的考试成绩数据,从中随机抽取 20 人的成绩数据作样本。具体的操作步骤如下:,第一步:选择“工具”菜单下“数据分析”中“抽样”功能,打开“抽样”对话框,如图 5-2 所示。,例5-1,图5-1 是80 名学生的考试成绩数据,从中随机抽取 20 人的成绩数据作样本。具体的操作步骤如下:,第二步:设置相关参数,如图 5-2 所示,单击“确定”按钮。,8,利用 Excel“数据分析”提供的抽样功能抽取的样本存在以下问题:,1,2,随机抽样采用的是可放回抽样,因此,总体中的每个数据都可以多次被抽中,所以样本中的数据一般都会有重复现象。,经过筛选,抽样结果避免了重复,但最终所得样本数量可能少于所需数量,因而要根据经验适当调整在数据样本选取时的数量设置,以使筛选后的样本数量满足要求。,3,尽管高级筛选可以对重复抽样情况进行修补,但抽样结果只能输出所需数目的所抽选项,其他相关信息需要利用其他辅助手段得到,给后继数据分析带来困难。,5.1.2 使用随机数生成函数实现随机抽样,利用随机数函数 RAND()进行随机抽样,上例数据利用 RAND函数抽样的操作步骤为:,第一步:增加字段“生成随机数”和“随机数排序”。,第二步:在单元格 F2 中输入公式“=RAND()”,并复制到单元格区域 F3:F81,得到一列动态随机数。如图 5-5 所示。,第三步:选择单元格区域 F2:F81,单击鼠标右键,选择“复制”,移动光标到单元格 G2,再次单击鼠标右键,选择“选择性粘贴”,在出现的对话框中选择“数值”并单击“确定”,得到一列静态随机数。,第四步:选择单元格区域 A1:G81,选择“数据”“排序”,以“随机数排序”为主要关键字排序。在排序结果中根据所需样本数目,即可以进行进一步数据推断。,5.2.2 均值区间估计,5.2.1 参数估计概述,5.2 总体参数估计,5.2.3 比率区间估计,11,参数估计概述,参数估计是指用样本指标(也称为统计量)来估计未知的总体指标(也称为总体参数)。最常见的是用样本平均数估计总体均数、用样本比率估计总体比率。,点估计也称为定值估计,是以样本指标的实际值直接作为总体未知参数的估计值的一种推断方法。,区间估计是给出总体未知参数的可能变动范围,即区间,并用一定的概率保证区间包含总体未知参数,即根据统计量和标准误差推断总体指标的可能范围。,均值区间估计,例5-2,假设学生成绩分布服从正态分布,根据例 5-1 抽出 20 名学生样本数据,(1)若数学成绩方差为 100,估计 80 名学生数学平均分 95%的置信区间。(2)总体方差未知,估计80 名学生数学平均分 95%的置信区间。具体的操作步骤如下:,第一步:建立均值区间估计计算表,如图 5-7 所示。,15,例5-2,假设学生成绩分布服从正态分布,根据例 5-1 抽出 20 名学生样本数据,(1)若数学成绩方差为 100,估计 80 名学生数学平均分 95%的置信区间。(2)总体方差未知,估计80 名学生数学平均分 95%的置信区间。具体的操作步骤如下:,第二步:总体方差已知的区间估计:在单元格B24 中输入已知总体标准差“10”,在单元格 B25中输入置信水平“95%”,在单元格 B26 中输入样本容量“20”,在单元格 B23 中输入公式“=AVERAGE(C2:C21)”,计算样本均值;在单元格B27 中输入公式“=ABS(NORMSINV(1-B25)/2)”,计算正态分布临界值;在单元格 B28、B29 中分别输入公式“=B23-B27*B24/SQRT(B26)”,“=B23+B27*B24/SQRT(B26)”,计算均值区间的下限和上限。,例5-2,假设学生成绩分布服从正态分布,根据例 5-1 抽出 20 名学生样本数据,(1)若数学成绩方差为 100,估计 80 名学生数学平均分 95%的置信区间。(2)总体方差未知,估计80 名学生数学平均分 95%的置信区间。具体的操作步骤如下:,第三步:总体方差未知的区间估计:在单元格D25 中输入置信水平“95%”,在单元格 D26 中输入样本容量“20”,在单元格 D23 中输入公式“=AVERAGE(C2:C21)”,计算样本均值;在单元格D24 中输入公式“=STDEV(C2:C21)”,计算样本标准差;在单元格 D27 中输入公式“=TINV(1-D25,D26-1)”,计算 t 分布临界值;在单元格 D28、D29中分别输入公式“=D23D27*D24/SQRT(D26)”,“=D23+D27*D24/SQRT(D26)”,计算均值区间的下限和上限。,比率区间估计,比率在大样本情况下,服从正态分布分布,比率的区间估计为:,例5-3,某市区随机调查了 300 名居民户,其中 6户拥有等离子电视机,估计该地区等离子电视机 95%的置信区间。具体的操作步骤如下:,第一步:建立比率区间估计的计算表,如图 5-8所示。第二步:在单元格 B4 中输入公式“=B3/B2”,计算样本比率;在单元格 B7中输入公式“=ABS(NORMSINV(1-B6)/2)”,计算正态分布临界值。第三步:在单元格 B8、B9 中分别输入公式“=B4-B7*SQRT(B4*(1-B4)/B5)”,“=B4+B7*SQRT(B4*(1-B4)/B5)”,计算比率置信区间下限和上限。,5.3.2 一个总体参数假设检验,5.3.1 假设检验概述,5.3 总体参数假设检验,5.3.3 两个总体参数假设检验,20,假设检验概述,1.假设检验,假设检验是推断分析的另一项重要内容,它与参数估计类似,但角度不同。参数估计是利用样本信息推断未知总体参数,而假设检验是先对总体参数(或分布形式)提出某种假设,然后利用样本信息判断假设是否成立的过程。假设检验有参数检验和非参数检验两种。逻辑上运用反证法,统计上依据小概率事件不可能发生这一原理。,假设检验概述,2.原假设与备择假设,统计是对总体参数的具体数值所作的陈述。在假设检验中,有原假设与备择假设。原假设是研究者想收集证据予以反对的假设,又称“零假设”,用符号表示为 H 0。之所以用零来修饰原假设,是因为原假设的内容总是没有差异或没有改变,或变量间没有关系等。关于样本统计量,如样本均值或样本均值之差的零假设,是没有意义的,因为样本统计量是已知的,当然能说出它们等于几或者是否相等。备择假设也称“研究假设”,是研究者想收集证据予以支持的假设,表示为 H1。,假设检验概述,3.双侧检验与单侧检验,如果备择假设没有特定的方向性,并含有符号“”,这样的检验称为双侧检验或双尾检验(图 5-9)。如果备择假设具有特定的方向性,并含有符号“”或“”的假设检验,称为单侧检验或单尾检验。备择假设的方向为“”,称为左侧检验(图 5-10).备择假设的方向为“”,称为右侧检验(图 5-11)。,图5-9双侧假设检验,图5-10 左侧假设检验,图5-11右侧假设检验,假设检验概述,4.显著性水平,在假设检验中,把拒绝 H0 所犯的错误称为弃真错误(或类错误),发生的概率设为,也称显著性水平;把接受不真实的 H0 所犯的错误,称为取伪错误(或类错误),发生的概率设为,两者之间的关系是:大,就小;小,就大,一般力求在控制 的前提下减少。显著性水平 的通常取值有 0.1、0.05、0.001 等。如果犯类错误损失更大,为减少损失,值取小;如果犯类错误损失更大,值取大。确定了,就确定了临界点。,假设检验概述,5.检验统计量与拒绝域,检验统计量是根据样本观测结果计算得到的,并据以对原假设和备择假设作出决策的某个样本统计量。标准化检验统计量(点估计量假设值)点估计量的标准差,是对样本估计量的标准化结果,即原假设 H0 为真时,点估计量的抽样分布。双侧检验的拒绝域如图5-9 所示,左侧检验的拒绝域如图 5-10 所示,右侧检验的拒绝域如图 5-11所示。,图5-9双侧假设检验,图5-10 左侧假设检验,图5-11右侧假设检验,假设检验概述,6.假设检验的步骤,根据已知总体与样本陈述原假设和备择假设。确定一个适当的检验统计量,并利用样本数据算出其具体数值。确定一个适当的显著性水平,并计算出其临界值,指定拒绝域。将统计量的值与临界值进行比较,作出决策。统计量的值落在拒绝域内,拒绝 H,否则不拒绝 H。也可以直接利用 P 值作出决策,P 值,拒绝 H。,一个总体参数假设检验,表5-2 一个总体均值检验类型,1.一个总体均值检验,例5-4,利用例 5-1 的抽样数据,在总体方差已知为 100 和总体方差未知两种情况下,显著性水平为 0.05 时,检验:(1)学生数学平均分是否为 80 分,(2)学生数学平均分是否低于 80 分,(3)学生数学平均分是否不高于 80 分。具体的操作步骤如下:,第一步:建立如图 5-12所示的总体均值检验表。第二步:在单元格区域 B7:D8,B15:D16 设置检验形式。其中,(1)为双侧检验,(2)为左侧检验,(3)为右侧检验。在单元格 B4 输入例 5-2 计算样本标准差。,例5-4,利用例 5-1 的抽样数据,在总体方差已知为 100 和总体方差未知两种情况下,显著性水平为 0.05 时,检验:(1)学生数学平均分是否为 80 分,(2)学生数学平均分是否低于 80 分,(3)学生数学平均分是否不高于 80 分。具体的操作步骤如下:,第三步:总体方差已知的情况下,在单元格区域 B10:D10 分别输入公式“=NORMSINV(1B9/2)”,“=NORMSINV(B9)”,“=NORMSINV(1B9)”,计算三种检验临界值。在单元格 B11 中输入公式“=(B280)/(B3/SQRT(20)”,计算检验统计量。,例5-4,利用例 5-1 的抽样数据,在总体方差已知为 100 和总体方差未知两种情况下,显著性水平为 0.05 时,检验:(1)学生数学平均分是否为 80 分,(2)学生数学平均分是否低于 80 分,(3)学生数学平均分是否不高于 80 分。具体的操作步骤如下:,第三步:在单元格区域B12:D12 分别输入公式“=IF(ABS(B11)B10,”平均分不为 80 分“,”平均分为 80 分“)”,“=IF(B11D10,平均分高于80 分,平均分不高于 80 分)”,进行检验决策。,例5-4,利用例 5-1 的抽样数据,在总体方差已知为 100 和总体方差未知两种情况下,显著性水平为 0.05 时,检验:(1)学生数学平均分是否为 80 分,(2)学生数学平均分是否低于 80 分,(3)学生数学平均分是否不高于 80 分。具体的操作步骤如下:,第四步:总体方差未知情况下,在单元格区域 B18:D18 分别输入公式“=TINV(B17,19)”,“=-TINV(2*C17,19)”,“=TINV(2*C17,19)”,计算三种检验临界值。在单元格 B19 中输入公式“=(B280)/(B4/SQRT(20)”,计算检验统计量。,例5-4,利用例 5-1 的抽样数据,在总体方差已知为 100 和总体方差未知两种情况下,显著性水平为 0.05 时,检验:(1)学生数学平均分是否为 80 分,(2)学生数学平均分是否低于 80 分,(3)学生数学平均分是否不高于 80 分。具体的操作步骤如下:,第四步:在单元格区域 B20:D20 分别输入公式“=IF(ABS(B19)B18,”平均分不为 80 分“,”平均分为 80 分“)”,“=IF(B19D18,平均分高于 80 分,平均分不高于 80分)”,进行检验决策。,一个总体参数假设检验,表5-3大样本下一个总体比率检验类型,2.一个总体比率假设检验,例5-5,一种以休闲娱乐为主题的杂志声称其读者群中女性读者不低于 80%。为检验这一说法是否属实,某研究部门抽取了一个 200 人的样本,发现有 146 名女性经常阅读该杂志,在显著性水平为 0.05 下检验杂志社的声称是否属实。具体的操作步骤如下:,第一步:建立图 5-13 所示的比率检验计算表,例5-5,一种以休闲娱乐为主题的杂志声称其读者群中女性读者不低于 80%。为检验这一说法是否属实,某研究部门抽取了一个 200 人的样本,发现有 146 名女性经常阅读该杂志,在显著性水平为 0.05 下检验杂志社的声称是否属实。具体的操作步骤如下:,第二步:在单元格 B2 中输入“=146/200”,计算样本比率。根据题目,该检验为左侧检验,在单元格区域 B3、B4 中设置原假设和备择假设。在单元格 B6 中输入公式“=NORMSINV(0.05)”,计算检验临界值,在单元格 B7 中输入公式“=(B2-80%)/SQRT(80%*(180%)/200)”,计算检验统计量。,例5-5,一种以休闲娱乐为主题的杂志声称其读者群中女性读者不低于 80%。为检验这一说法是否属实,某研究部门抽取了一个 200 人的样本,发现有 146 名女性经常阅读该杂志,在显著性水平为 0.05 下检验杂志社的声称是否属实。具体的操作步骤如下:,第三步:在单元格 B8 中输入公式“=IF(B7)B6,不属实,属实)”,进行决策。,一个总体参数假设检验,表5-4一个总体方差检验类型,3.一个总体方差检验,例5-6,啤酒生产企业采用自动生产线灌装啤酒,每瓶装填量为 640 mL,但由于受某些不可控制因素影响,每瓶装填量会有差异。装填量太多或太少要么企业不划算,要么消费者不满意。假定生产标准规定每瓶装填量的标准差不应超过也不应低于 4 mL。企业质监部门抽取了 10 瓶啤酒检验,得到样本标准差为 3.8 mL,以显著性水平为 0.1检验装填量标准差是否符合要求。具体的操作步骤如下:,第一步:建立图 5-14 所示的方差检验计算表。,例5-6,啤酒生产企业采用自动生产线灌装啤酒,每瓶装填量为 640 mL,但由于受某些不可控制因素影响,每瓶装填量会有差异。装填量太多或太少要么企业不划算,要么消费者不满意。假定生产标准规定每瓶装填量的标准差不应超过也不应低于 4 mL。企业质监部门抽取了 10 瓶啤酒检验,得到样本标准差为 3.8 mL,以显著性水平为 0.1检验装填量标准差是否符合要求。具体的操作步骤如下:,第二步:在单元格 B2、B3中输入已知样本标准差和样本容量。根据题目,该检验为双侧检验,在单元格 B4、B5 设置原假设和备择假设。在单元格 B7、B8 中分别输入公式“=CHIINV(1-B6/2,B3-1)”,“=CHIINV(B6/2,B3-1)”,计算卡方检验的两个临界值;在单元格 B9 中输入公式“=(B3-1)*B22/42”,计算检验统计量。,例5-6,啤酒生产企业采用自动生产线灌装啤酒,每瓶装填量为 640 mL,但由于受某些不可控制因素影响,每瓶装填量会有差异。装填量太多或太少要么企业不划算,要么消费者不满意。假定生产标准规定每瓶装填量的标准差不应超过也不应低于 4 mL。企业质监部门抽取了 10 瓶啤酒检验,得到样本标准差为 3.8 mL,以显著性水平为 0.1检验装填量标准差是否符合要求。具体的操作步骤如下:,第三步:在单元格 B10中输入公式“=IF(B9B7,”不符合要求,IF(B9B8,符合要求,不符合要求)”,进行决策。,两个总体参数假设检验,表5-5一个总体方差检验类型,例5-7,某工厂为了比较新旧两种装配方法的效率,分别组织两组员工,每组 9 人,一组用新方法,一组用旧方法,两组员工装配时间见表 5-6。假设两组员工装配时间均服从正态分布。(1)新、旧方法装配时间方差已知,分别为 15 和 20,根据数据是否有理由认为新方法更节约时间?(2)新、旧方法装配时间方差相等但未知,根据数据是否有理由认为新方法更节约时间?(=0.05)具体的操作步骤如下:,第一步:根据题目条件在单元格 F3、F4 设置假设,并建立双样本假设检验计算表,见表5-6。,例5-7,某工厂为了比较新旧两种装配方法的效率,分别组织两组员工,每组 9 人,一组用新方法,一组用旧方法,两组员工装配时间见表 5-6。假设两组员工装配时间均服从正态分布。(1)新、旧方法装配时间方差已知,分别为 15 和 20,根据数据是否有理由认为新方法更节约时间?(2)新、旧方法装配时间方差相等但未知,根据数据是否有理由认为新方法更节约时间?(=0.05)具体的操作步骤如下:,第二步:总体方差已知的检验。选择“工具”菜单中“数据分析”,在打开的“数据分析”对话框中选择“z-检验:双样本平均差检验”,打开如图5-15所示对话框。按如图 5-15 所示设置好参数,单击“确定”。在单元格 B27 中输入公式“=IF(B22-B24,新方法节约时间,新方法不节约时间)”,进行检验决策。计算结果如图5-16 所示。,例5-7,某工厂为了比较新旧两种装配方法的效率,分别组织两组员工,每组 9 人,一组用新方法,一组用旧方法,两组员工装配时间见表 5-6。假设两组员工装配时间均服从正态分布。(1)新、旧方法装配时间方差已知,分别为 15 和 20,根据数据是否有理由认为新方法更节约时间?(2)新、旧方法装配时间方差相等但未知,根据数据是否有理由认为新方法更节约时间?(=0.05)具体的操作步骤如下:,第三步:总体方差相等但未知的检验。选择“工具”菜单中“数据分析”,在打开的“数据分析”对话框中选择“t-检验:双样本等方差假设”,打开如图5-17 所示对话框。按如图 5-17 所示设置好参数,单击“确定”。在单元格 F29 中输入公式“=IF(F24-F26,”新方法节约时间,新方法不节约时间)”,进行检验决策。计算结果如图5-16 所示。,5.4.2 单因素方差分析,5.4.1 方差分析概述,5.4 方差分析,5.4.3 双因素方差分析,45,方差分析概述,方差分析是一种常用的数据推断分析方法,它可以用于分析一种因素或多种因素对某一事物有无显著影响。方差分析常常用来检验多个均值之间差异是否显著,可以看成是双样本t 检验的扩展。,方差分析概述,1.因素,在方差分析中,所要检验的对象称为因素或因子。如图5-18 中,“部门”是检验的对象,所以“部门”就是“因素”或“因子”。,方差分析概述,2.水平,因素的不同表现或取值称为水平或处理。如图5-18中,A、B、C、D四个部门就是“部门”这一因素的具体表现,称为“水平”。,方差分析概述,3.观测值,每个因素水平下得到的样本数据称为观测值。如图5-18 中,不同分公司的每个部门的被投诉次数就是样本单位数据,也就是观测值。,方差分析概述,4.方差分析中的基本假定,每个总体服从正态分布。各个总体的方差2必须相等。观测值独立。,方差分析概述,5.方差分析中的假设,设因素有n个水平,每个水平的均值分别用,k表示,要检验n 个水平(总体)的均值是否相等,需要提出如下假设:H0:12n,即自变量对因变量没有显著差异和影响;H1:1,2,n 不全相等,即自变量对因变量有显著差异和影响。本例是研究部门对投诉次数有无显著影响,需要提出如下假设:H0:1234,即部门间投诉次数没有显著差异;H1:1,2,3,4 不全相等,部分间的投诉次数有显著差异。从中可以看到,方差分析和假设检验原理一样,但这个问题如果采用两两的假设检验,将要反复进行6 次。,例5-8,利用图 5-18 的企业公司分部门投诉数据,分析几个部门之间的服务质量是否有显著差异。具体的操作步骤如下:,第一步:单击“工具”菜单,选择“数据分析”,打开“数据分析”对话框。在“数据分析”对话框中选择“方差分析:单因素方差分析”,单击“确定”。第二步:打开“方差分析:单因素方差分析”对话框,如图5-19 所示。,单因素方差分析,例5-8,利用图 5-18 的企业公司分部门投诉数据,分析几个部门之间的服务质量是否有显著差异。具体的操作步骤如下:,第三步:按图5-19 所示设置相关参数(其中“分组方式”是指因素的排列方式,本例中“因素”部门是按“列”排列的),单击“确定”,得计算结果,如图5-20所示。,双因素方差分析,当方差分析涉及的影响因素为两个时,称为双因素方差分析。图 5-21 中彩电的“品牌”因素和“地区”对销售量都有影响,它们对销售量的影响是否有差异,是双因素方差分析;图5-22 中“路段”和“时段”对行车时间都有影响,它们对行车时间的影响是否有差异,也是双因素方差分析。,双因素方差分析,在不同品牌彩电在各地区销售量数据的方差分析中,两个影响因素“品牌”和“地区”对序列的影响是相互独立的,两因素的搭配不会有新影响,这时的双因素方差分析称为无交互作用的双因素方差分析,或无重复双因素分析。,1.无交互作用的双因素方差分析,例5-9,利用图5-21 中的数据分析“品牌”和“地区”对销售量是否有显著影响。(=0.05)具体的操作步骤如下:,第一步:单击“工具”菜单,选择“数据分析”,打开“数据分析”对话框。在“数据分析”对话框中选择“方差分析:无重复双因素分析”,单击“确定”。第二步:打开“方差分析:无重复双因素分析”对话框。如图5-23 所示。,例5-9,利用图5-21 中的数据分析“品牌”和“地区”对销售量是否有显著影响。(=0.05)具体的操作步骤如下:,第三步:按图5-23 所示设置相关参数,单击“确定”,得计算结果,如图5-24 所示。,双因素方差分析,在不同时段和不同路段行车时间的方差分析中,两个影响因素“时段”和“路段”对行车时间有影响,同时两因素的搭配还会对行车时间产生新影响,这时的双因素方差分析称为有交互作用的双因素方差分析,或可重复双因素分,2.有交互作用的双因素方差分析,例5-10,利用图5-22 中的数据分析“路段”、“时段”以及“路段和时段交互作用”对行车时间的影响。(=0.05)具体的操作步骤如下:,第一步:单击“工具”菜单,选择“数据分析”,打开“数据分析”对话框。在“数据分析”对话框中选择“方差分析:可重复双因素分析”,单击“确定”。第二步:打开“方差分析:可重复双因素分析”对话框。如图5-25 所示。,例5-10,利用图5-22 中的数据分析“路段”、“时段”以及“路段和时段交互作用”对行车时间的影响。(=0.05)具体的操作步骤如下:,第三步:按图5-25 所示设置相关参数,单击“确定”,得计算结果,如图5-26 所示。,61,5.5.2 回归分析,5.5.1 相关分析,5.5 相关和回归分析,62,相关分析,相关分析是分析现象之间的相关关系。相关关系是指客观现象之间确实存在的,但数量上不是严格对应的依存关系。在这种关系中,对于某一现象的每一数值,可以有另一现象的若干数值与之相对应。,1.相关图,相关图又称散点图,它是用直角坐标系的 x 轴代表一个变量,y 轴代表另一个变量,将两个变量间相对应的变量值用坐标点的形式描绘出来,用以表明相关点分布状况的图形。,例5-11,某公司广告费用和销售数量的资料如图5-27 所示,根据资料绘制相关图,分析广告费用和销售数量的关系。操作步骤:,图5-27,例5-11,具体的操作步骤如下:,第一步:用鼠标选中一个空白单元格,单击菜单选项“插入”“图表”,在对话框“图表向导4 步骤之 1图表类型”中选择“柱形图”,在“子图表类型”中选择第一项“散点图”,单击“下一步”,则显示如图“图表向导4步骤之2图表源数据”对话框。,例5-11,具体的操作步骤如下:,第二步:完成上述步骤之后,单击“下一步”,出现“图表向导4 步骤之 3图表选项”对话框。第三步:完成上述步骤之后,单击“下一步”,出现“图表向导4 步骤之4图表位置”。,相关分析,相关图虽然能直观地展现变量之间的相关关系,但对变量相关关系的密切程度描述得不够精确。因此,还有通过指标的形式来描述变量之间的相关关系的方法即相关系数。常用的相关系数有简单线性相关系数和Spearman等级相关系数。,2.相关系数,(1)简单线性相关系数,。,相关系数的取值为1,+1,r=0 表明 x 和 y 没有线性相关关系,r=1 表明 x 和 y完全线性相关,其余取值表明 x 和 y 之间有一定程度的线性相关关系。r越接近于 1,密切程度越高,r越接近于0,密切程度越低,例5-12,利用广告费用和销售数量的数据计算简单线性相关系数。具体的操作步骤如下:实现简单线性相关系数的计算方法有常用的两种:,用函数CORREL()计算。第一步:单击一空白单元格,在“插入”菜单中选择“函数”,显示插入函数对话框,选择“统计”函数,找到“CORREL”,单击“确定”,出现图5-29。,例5-12,利用广告费用和销售数量的数据计算简单线性相关系数。具体的操作步骤如下:,第二步:将光标置于Array1 右侧文本框中,用鼠标选择A2:A8单元格区域;再将光标置于Array2右侧文本框中,用鼠标选择B2:B8单元格区域,单击“确定”。计算结果如图5-30 所示。,例5-12,利用广告费用和销售数量的数据计算简单线性相关系数。具体的操作步骤如下:实现简单线性相关系数的计算方法有常用的两种:,用“数据分析”工具计算。第一步:在“工具”菜单选择“数据分析”,在弹出的“数据分析”对话框中选择“相关系数”,单击“确定”。弹出如图5-31所示“相关系数”对话框。,例5-12,利用广告费用和销售数量的数据计算简单线性相关系数。具体的操作步骤如下:,第二步:单击“输入区域”左侧文本框,将光标置于其中,然后用鼠标选择 A1:B8 单元格区域。选中单选框“标志位于第一行”前面的,使里面出现一个“”,单击“输出区域”左侧文本框,将光标置于其中,然后选择 A12,单击“确定”。计算结果如图 5-32 所示。,例5-12,利用广告费用和销售数量的数据计算简单线性相关系数。具体的操作步骤如下:,为判断样本相关系数能否代表总体相关系数,需对求得的相关系数进行显著性检验。t统计量计算公式:,例5-12,利用广告费用和销售数量的数据计算简单线性相关系数。具体的操作步骤如下:,在单元格 B18 中输入公式“=B14*SQRT(COUNT(A2:A8)2)/SQRT(1-B102)”,计算 t 统计量;在单元格B19 中输入公式“=TINV(B17,COUNT(A2:A8)-2)”,计算临界值;在单元格 B20 中输入公式“=IF(B18B19,”有显著线性关系,无显著线性关系)”,进行决策。,相关分析,(2)Spearman等级相关系数,。,两个变量之间简单线性相关系数要求变量是正态分布的,若不能满足正态分布的要求,简单线性相关系数的分析方法不宜使用,可以用pearman等级相关系数做相关分析。等级相关系数的取值为1,+1,rS=0 表明x和y等级不相关,|rS|=1 表明x和y完全等级相关,其余取值表明x和y之间有一定程度的等级相关关系。|r S|越接近于1,密切程度越高;|rS|越接近于0,密切程度越低。,回归分析,回归分析通过一个变量或一些变量的变化来解释另一变量的变化。回归有不同种类:按照自变量的个数分,有一元回归和多元回归。只有一个自变量的叫一元回归,有两个或两个以上自变量的叫多元回归;按照回归曲线的形态分,有线性(直线)回归和非线性(曲线)回归。实际分析时应根据客观现象的性质、特点、研究目的和任务,选取回归分析的方法。,利用 Excel进行回归分析步骤是:,1,2,首先根据理论和对问题的分析判断,将变量分为自变量和因变量;,其次,设法找出合适的数学方程(即回归模型)描述变量间的关系。,3,由于涉及的变量具有不确定性,接着还要对回归模型进行统计检验。统计检验通过后,就可以利用回归模型,根据自变量去估计、预测因变量。,回归分析,回归系数的估计方法通常采用普通最小二乘法,例5-13,拟合广告费用和销售数量的回归方程。具体的操作步骤如下:,第一步:在“工具”菜单中选择“数据分析”,在弹出的“数据分析”对话框中选择“回归”,单击“确定”。弹出如图5-34 所示“回归”对话框。,例5-13,拟合广告费用和销售数量的回归方程。具体的操作步骤如下:,第二步:单击“Y 值输入区域”右侧文本框,将光标置于其中,然后选择 B1:B8 单元格区域。单击“X值输入区域”右侧文本框,将光标置于其中,然后选择A1:A8单元格区域。由于A1 与B1 单元格是指标名称,所以单击“标志”左侧的“”,使其中出现“”。,例5-13,拟合广告费用和销售数量的回归方程。具体的操作步骤如下:,第三步:在“输出选项”下,选定单选框,单击“输出区域(O)”右侧文本框,将光标置于其中,然后单击一空白单元格,最后单击“确定”。,Thank You!,81,