批发分销商销售状况及策略研究.docx
1 批发分销商销售状况批发分销商销售状况及策略及策略研究研究 摘摘 要要 本文针对批发分销商销售状况及策略的研究,使用描述统计、方差分析、判别分析等方法,分别构建描述统计对比分析模型、双因素方差分析模型、两总体距离判别模型、多总体距离判别模型,并利用 Excel、Matlab 等软件编程处理数据,得出了该批发分销商销售状况、影响因素以及有利的经营策略。 针对问题一要求,给出该数据资料的基本分布状况、变量之间的相关程度或关联程度,以及批发商目前经营状况的评价。 本文首先通过Excel对数据资料做基本的描述统计以及相关关系分析,可得出数据资料的基本分布状况以及变量之间的相关程度,再通过最描述统计结果的对比分析得出该分销商目前经营状况的评价。 针对问题二要求,需分析不同销售途径、不同销售区域以及两者之间的交互作用是否会显著影响六大类商品的销售额,并最终找到影响六大类商品销售的主要因素。首先在Excel中对数据进行处理,再分别对销售途径和销售区域做无交互作用的双因素因素分析和交互作用的双因素分析,然后通过Matlab编程算出方差分析结果,分析后得出影响六大类商品销售的主要因素。 针对问题三要求,需建立销售区域和销售途径的判别模型,并分析影响销售区域和销售途径的主要商品类别。其中销售途径可采用两总体距离判别方法得出销售途径的判别模型,并通过Matlab计算判别系数得出影响销售途径的商品类别;而销售区域可采用多总体的距离判别法建立销售区域的判别模型,并通过逐个剔除商品类别因素的方法计算误判率,用过Matlab计算得出判别系数和误判率,得出影响销售区域的主要商品类别,并综合分析得出批发销售商提供智慧的经营销售策略。 本文最后还对模型进行了误差分析、评价和推广,并针对问题二中的方差分析所需的条件进行齐性检验,通过非参数检验对模型进行改进,使结果更准确。 关键词关键词:批发商销售策略;描述统计;方差分析;判别分析;Matlab 2 1 问题的重述问题的重述 一、背景知识一、背景知识 1总背景介绍 批发分销商是指向制造商或经销单位购进商品,供给其他单位(如零售商)进行转卖或供给制造商进行加工制造产品的中间商。批发商的客户一般是销售公司或者大型零售商,不同的客户对批发商的需求不同,导致了批发商在不同客户不同销售区域和途径的条件下会有不同的进货组合。 2问题的产生 随着市场的竞争的愈加激烈,批发分销商商需要更有效率的经营销售策略,但是经营策略需要对日常收集的数据进行大量分析和总结,但数据量多繁杂,无法直观地了解到想要的信息。 3已有的对策 数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。 统计分析是指运用统计方法及与分析对象有关的知识,从定量与定性的结合上进行的研究活动。它是在一定的选题下,集分析方案的设计、资料的搜集和整理而展开的研究活动。系统、完善的资料是统计分析的必要条件。 将数据挖掘或多元统计的技术应用于商业领域,利用企业所积累的资料,透过相关变量的分析,找出顾客区隔、消费行为、业务成本与效率等对企业极为重要的资讯,为企业管理提供决策支持,从而提高企业经营的竞争力和商业智慧。 二、相关资料二、相关资料 1Wholesale customers data(B 题附件) 。 三、要解决的问题三、要解决的问题 1问题一问题一 对该数据资料作描述统计,给出该数据资料的基本分布状况、变量之间的相关程度或关联程度,最终给出该批发分销商的目前经营状况的评价。 2问题二问题二 分析不同销售途径、不同销售区域以及两者之间的交互作用是否会显著的影响六大类商品的销售额,最终找到影响六大类商品销售的主要因素。 3问题三问题三 利用数据分析方法通过分别建立销售区域和销售途径的判别模型,分别找出影响销售区域的主要商品类别,影响销售途径的主要商品类别,最终为批发销售商提供智慧的经营销售策略。 3 2 问题的分析问题的分析 一、问题的总分析一、问题的总分析 本文题为批发分销商销售状况的研究,即通过对该分销商历史销售数据的分析和研究,得出该分销商的经营状况、影响因素以及有利于经营销售的策略。该问题属于数理统计的内容,可采用描述统计、方差分析、判别分析的方法进行研究,整体框图如图 1表示: 图 1 整体框图 二二、对具体对具体问题的分析问题的分析 1对问题一的分析对问题一的分析 问题一要求对该数据资料作描述统计,给出该数据资料的基本分布状况、变量之间的相关程度或关联程度,最终给出该批发分销商的目前经营状况的评价。根据要求主要通过描述统计的方法对数据进行分析。首先通过 Excel 对数据资料做基本的描述统计以及相关关系分析,可得出数据资料的基本分布状况以及变量之间的相关程度,再通过最描述统计结果的分析得出该分销商目前经营状况的评价。 2对问题二的分析对问题二的分析 问题要求分析不同销售途径、不同销售区域以及两者之间的交互作用是否会显著的影响六大类商品的销售额,最终找到影响六大类商品销售的主要因素。可通过无交互作用的双因素因素分析和交互作用的双因素分析,找到影响六大类商品销售的主要因素。 3对问题三的分析对问题三的分析 问题三要求利用数据分析方法通过分别建立销售区域和销售途径的判别模型,分别 4 找出影响销售途径和销售区域的主要商品类别,最终为批发销售商提供智慧的经营销售策略。其中销售途径可可采用两总体距离判别方法得出销售途径的判别模型,并通过所得线性判别函数中定影响销售途径的商品类别;而销售区域可采用多总体的距离判别法建立销售区域的判别模型,并通过逐个剔除商品类别因素的方法计算误判率,得出影响销售区域的主要商品类别。并通过对上述判别模型和影响因素的研究,综合分析得出批发销售商提供智慧的经营销售策略。 3 模型的假设模型的假设 1假设六大类商品商品销售额相互独立; 2假设模型中,三总体协方差矩阵差异可以忽略,并且不会造成显著误差 4 名词解释与符号说明名词解释与符号说明 一、名词解释一、名词解释 1描述统计描述统计:是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。1 2数据分析方法:数据分析方法:数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用。是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据也称观测值,是实验、测量、观察、调查等的结果,常以数量的形式给出。2 二、二、主要主要符号说明符号说明 序号 符号 符号说明 1 x 平均值 2 2s 方差 3 s 标准差 4 r 相关系数 5 1g 偏度 6 2g 峰度 7 i 水平iA对指标的效应 8 j 水平jB对指标的效应 9 ij 水平iA与jB对指标的交互效应 10 ),(Gxd n维向量x与总体G的马氏距离 11 总体的协方差矩阵 12 p 回带误判率 5 5 模型的建立与求解模型的建立与求解 一、问题一的分析与求解一、问题一的分析与求解 1对问题的分析对问题的分析 问题要求对该数据资料作描述统计,给出该数据资料的基本分布状况、变量之间的相关程度或关联程度,最终给出该批发分销商的目前经营状况的评价。我们利用 Excel自带的数据分析功能对数据进行进行处理,并对结果进行对比分析,得出经营状况的评价。 2对问题的求解对问题的求解 模型模型 描述统计对比分析模型描述统计对比分析模型 模型的准备模型的准备 描述统计是将收集到的数据用一些概括性的统计量以及图形、图表加以描述,它将数据本身包含的信息加以总结、概括、浓缩、简化,使问题变得更加清晰、简单、易于理解。 通过试验和观察得到数据nxxx,21。这些数据是带有随机性的数据. 为统计分析目的,数据被分为定性(有序的和名义的)数据和定量(计量和计数的)数据。本文中将保鲜品、乳制品、杂货产品、冷冻开支、洗涤剂和纸制品、熟食产品、销售途径以及销售区域作为 8 组数据进行描述统计和相关性分析。 模型的建立模型的建立 平均 niixnx11 它是数据集中趋势的度量,反映了数据的平均水平。其优点是能反映每个数据的作用,缺点是易受数据中极端值的影响。 方差 njixxns122)(11 样本均值是总体均值的无偏估计。 标准差 标准差是方差的平方根,方差与标准差越大,意味着数据的分散程度越大;相反,方差与标准差越小,意味着数据的分散程度越小,也即向平均值的集中程度越高。方差与标准差度量了数据的离散程度。 中位数 中位数以其排列位置来描述集中趋势, 比中位数大(小)的数据各占整个数据的一半。其优点是不受个别极端值的影响,具有稳健性,缺点是缺乏敏感性。 众数 众数是指在数据中出现次数最多的数据值,是衡量定性数据集中位置的重要量度。 偏度 6 偏度和峰度是刻画数据分布形态的两个统计量,它们与数据的矩有关。数据的矩分为原点矩和中心矩。 k 阶原点矩 nikikxnA11 k 阶中心矩 nikikxxnB1)(1 偏度的计算公式为 niisnnBnxxsnnng1332231)2)(1()()2)(1( 偏度是描述样本数据对称性的统计量。关于均值对称的数据,其偏度为 0,数据的右侧较左侧更为扩展,偏度为正,反之,数据的左侧较右侧更为扩展,偏度为负。 峰度的计算公式为 )3)(2() 1(3)3)(2)(1() 1()3)(2() 1(3)()3)(2)(1() 1(24221442nnnsnnnnnnnnxxsnnnnngnii 峰度是以正态分布为标准, 来描述数据向分布尾端散布的趋势。 近似于正态的分布,其峰度接近于 0。尖峰式分布(峰度为负),标准正态分布(峰度为 0),扁平式分布(峰度为正)。 标准误差 标准误差一般用来判定该组测量数据的可靠性,在数学上它的值等于测量值误差的平方和的平均值的平方根。标准误差在正态分布中表现出正态分布曲线的陡峭程度,标准误差越大,曲线越平坦,反之,曲线越陡峭。 相关系数 niniiininiiiniiniininiiiniiiyynxxnyyxxnyyxxyyxxr12121212121211221)()()()()()()( 相关系数是用以反映变量之间相关关系密切程度的统计指标。相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数。 模型的求解模型的求解 调用 Excel 描述统计功能,对数据进行描述统计结果如表 1 和表 2 7 表 1 描述统计结果表 描述统计量 Channel Region Fresh Milk Grocery Frozen Detergents Paper Delicassen 平均 1.322727 2.543181818 12000.3 5796.266 7951.277 3071.932 2881.493 1524.87 标准误差 0.022313 0.036911991 602.9377 351.8457 453.0455 231.4375 227.2985 134.4433 中位数 1 3 8504 3627 4755.5 1526 816.5 965.5 众数 1 3 3366 1196 2062 425 918 834 标准差 0.468052 0.774272449 12647.33 7380.377 9503.163 4854.673 4767.854 2820.106 方差 0.219072 0.599497826 1.6E+08 54469967 90310104 23567853 22732436 7952997 峰度 -1.42746 -0.100110835 11.53641 24.6694 20.91467 54.68928 19.00946 170.6949 偏度 0.760951 -1.28362693 2.561323 4.053755 3.587429 5.907986 3.631851 11.15159 区域 1 2 112148 73443 92777 60844 40824 47940 最小值 1 1 3 55 3 25 3 3 最大值 2 3 112151 73498 92780 60869 40827 47943 求和 582 1119 5280131 2550357 3498562 1351650 1267857 670943 观测数 440 440 440 440 440 440 440 440 最大(1) 2 3 112151 73498 92780 60869 40827 47943 最小(1) 1 1 3 55 3 25 3 3 置信度(95.0%) 0.043855 0.072546176 1185.003 691.5113 890.4077 454.8631 446.7286 264.2324 表 2 相关系数统计表 相关系数 Channel Region Fresh Milk Grocery Frozen Detergents Paper Delicassen Channel 1.00 Region 0.06 1.00 Fresh -0.17 0.06 1.00 Milk 0.46 0.03 0.10 1.00 Grocery 0.61 0.01 -0.01 0.73 1.00 Frozen -0.20 -0.02 0.35 0.12 -0.04 1.00 Detergents_Paper 0.64 0.00 -0.10 0.66 0.92 -0.13 1.00 Delicassen 0.06 0.05 0.24 0.41 0.21 0.39 0.07 1.00 由表 1 可知 主要的销售途径是 1,主要的销售区域(中位数和众数)是 3。保鲜品(FRESH)平均开支为 12000,是几种产品中均开支最高的,说明该供货商的主要输出开支为保鲜品;杂货产品(GROCERY)平均开支 7951.277,是销量第二的产品种类。每个种类的产品标准差都很高,说明离散程度很高,可以看出不同地区不同渠道对各类产品的需求较强的随机性;峰度都为正,说明跟正态分布类似,比正态分布扁平。偏度较低,大体类似中高两边低的平衡状态分布。其中熟食产品(DELICATESSEN)的峰度和偏度都超高,这类产品与正态分布近似度低,尾部散布的趋势较明显,分布较为平均。 由表 2 可知 销售途径(CHANNEL)与乳制品(MILK)、杂货产品(GROCERY)、洗涤剂和纸制品(DETERGENTS&PAPER)相关性较强,说明不同的销售途径会影响上述三种 8 产品的批发量,而保鲜品(FRESH)、冷冻开支(FROZEN)与销售途径基本无关;销售区域 (REGION) 与各个品种的相关性都很弱; 保鲜品 (FRESH) 与冷冻开支 (FROZEN)相关性较强,冷冻成本提高时批发商有可能减少保鲜品的批发量以减少保鲜成本;乳制品(MILK)与杂货产品(GROCERY)、洗涤剂和纸制品(DETERGENTS&PAPER)、熟食产品(DELICATESSEN)有较强的正相关性说明这些产品具有相似特点;杂货产品(GROCERY)与洗涤剂和纸制品(DETERGENTS&PAPER)相关性特别高,因为这两类为生活必需品。 总之,该批发商经营状况为:主要销售途径是 1,主要销售区域为 3,主要销售产品类型为保鲜品和杂货产品,各种产品的需求具有随机性和离散性,销售途径对乳制品和生活用品的影响较大,而保鲜品与冷冻等保鲜支出的成本有关。该批发商可能是某超市或者商场的经销商,产品的种类较多,量也比较大,分布也较平均。 二、问题二的分析与求解二、问题二的分析与求解 1对问题的分析对问题的分析 问题要求分析不同销售途径、不同销售区域以及两者之间的交互作用是否会显著的影响六大类商品的销售额,最终找到影响六大类商品销售的主要因素。设销售途径为因素 A,销售区域为因素 B,因素 A 有两个水平,因素 B 有三个水平,在 Excel 中对数据进行处理后,分别做无交互作用的双因素因素分析和交互作用的双因素分析,然后通过Matlab 编程计算, 得出因素 A,因素 B,A 和 B 交互作用检验的 p 值, 将其与给定的显著性水平进行比较,。 再分析比较三个检验的 p 值的大小找到影响六大类商品销售的主要因素。 2对问题的求解对问题的求解 模型模型 双因素方差分析模型双因素方差分析模型 模型的准备模型的准备 双因素方差3分析需考虑两个因素对所关心的指标的影响,两个因素分别为 A,B,他们分别取 r,s,个不同的水平, 记为rAAA,21和SBBB,21将在水平组合)(jiBA,下的试验结果看成随机变量,考虑因素 A,B,对指标的影响是否显著,仍然假定在水平组合)(jiBA,下的指标服从正态分布,并假设各个水平组合下的指标方差相同。 双因素方差分析有两种类型:一个是无交互作用的双因素方差分析,它假定因素A和因素B的效应之间是相互独立的,不存在相互关系,无交互作用的双因素方差分析其结果与对每个因素分别进行单因素方差分析的结果相同;另一个是有交互作用的双因素方差分析,它假定因素A和因素B的结合会产生出一种新的效应。 模型的建立模型的建立 设A取r个 水 平rAAA,21,B取s个 水 平SBBB,21,在 水 平 组 合ijjixBA)下总体( ,服从正态分布)(2,ijN,sjri, 1, 1,。又设水平组合),(jiBA 9 下做了t个试验,所得结果记作,ijkx)(服从2,ijijkNx,tksjri, 1, 1, 1,且相互独立。 将ijkx分解为 tksjrixijkijijk, 1, 1, 1,, 其中且相互独立。记), 0(2Nijk jiijijjjriijjsjiiijriisjijrsrs,1,111111 是总均值,i是水平iA对指标的效应,j是水平jB对指标的效应,ij是水平iA与jB对指标的交互效应。 所以可建立如下模型 tksjriNxijkrisjrisjijijjiijijjiijk, 1, 1, 1), 0(, 0, 0, 021111k , 原假设为 ), 1;, 1(0:), 1(0:), 1(0:030201sjriHsjHriHijji 无交互影响的双因素方差分析 因为无交互影响,所以ij=0,于是 sjrijiij, 1;, 1, 记 21211121121111)(,)()()(1,11xxrSxxsSxxxxSxxSxrxxsxxrsxrijBriiArisjjiijErisjijTsjriijjijriisjij 其中TS为总平方和,AS为因素 A 的平方和,BS为因素 B 的平方和,ES反应了试验的随机误差,而且满足 BAETSSSS 当01H成立时, 10 )1)(1( , 1() 1)(1/(1/srrFsrSrSFEAA 当02H成立时, )1)(1( , 1() 1)(1/(1/srsFsrSsSFEBB 检验规则为 ;否则拒绝时接受;否则拒绝时接受0202101011,)1)(1( , 1(,)1)(1( , 1(HHsrsFFHHsrrFFBA 交互作用的双因素方差分析 记 ,)()(,)()()(11,1121121211112111211111111xxxxtSxxrtSxxstSxxSxxSxrtxxstxxtxxrstxjriiijsjABsjjBriiArisjtkijijkErisjtkijkTritkijkjsjtkijkitkijkriijsjtkijk 其中TS为总平方和,AS为因素 A 的平方和,BS为因素 B 的平方和,ES为误差平方和,ABS为交互作用的平方和,而且满足ABBAETSSSSS 当03H成立时, )1(),1)(1() 1(/) 1)(1/(trssrFtrsSsrSFEABAB 根据此统计量,可以检验03H 模型的求解模型的求解 将销售途径看做因素A,将销售区域看做因素B,则因素A有两个水平,11为A,22为A,因素B有三个水平,3, 21321为为,为BBB,然后分析这两个因素及其交互作用是否会显著的影响六大类商品的销售额,在Excel中对数据进行处理后通过Matlab(见附录程序1)编程做方差分析可得保鲜品的结果如图2, 图2 保鲜品两因素及其交互作用的方差分析结果 11 通过整理可得到六大类商品销售额方差分析的结果如表3 表3 六大类商品两因素及其交互作用的方差分析结果 销售途径 销售区域 交互作用 F ProbF F ProbF F ProbF 保鲜品 9.5 0.0022 1.64 0.1961 0.5 0.609 乳制品 59.98 0 1.05 0.352 0.08 0.9275 杂货产品 147.41 0 0.73 0.4834 0.59 0.5527 冷冻开支 12.05 0.0006 0.98 0.3744 1.85 0.1582 洗涤剂和纸制品 191.4 0 1.28 0.2779 1.54 0.2146 熟食产品 0.89 0.346 0.62 0.5367 0.13 0.8767 通过比观察表 3,可以得到影响保鲜品销售额的主要因素是销售途径;影响乳制品销售额的主要因素是销售途径;影响杂货产品销售额的主要因素是销售途径;影响冷冻开支销售额的主要因素是销售途径;影响洗涤剂和纸制品销售额的主要因素是销售途径;销售途径,销售区域,以及里面或者之间的交互作用都不是是影响熟食产品销售额的主要因素。 三三、问题、问题三三的分析与求解的分析与求解 1对问题的分析对问题的分析 问题要求利用数据分析方法通过分别建立销售区域和销售途径的判别模型,分别找出影响销售途径和销售区域的主要商品类别,最终为批发销售商提供智慧的经营销售策略。其中销售途径可分为途径 1 和 2,可采用两总体距离判别方法得出销售途径的判别模型,并通过所得线性判别函数中的判别系数,来确定影响销售途径的商品类别;而销售区域可分为区域 1、区域 2 以及区域 3,可采用多总体的距离判别法建立销售区域的判别模型,并通过逐个剔除商品类别因素的方法计算误判率,得出影响销售区域的主要商品类别。并通过对上述判别模型和影响因素的研究,综合分析得出批发销售商提供智慧的经营销售策略。 2对问题的求解对问题的求解 模型模型 销售途径判别模型销售途径判别模型两总体距离判别两总体距离判别法法 模型的准备模型的准备 定义定义 马马氏距离氏距离:马氏距离是由印度统计学家马哈拉诺比斯(PC Mahalanobis)提出的,由于马氏距离具有统计意义,在距离判别分析时经常应用马氏距离。 一个向量到一个总体的马氏距离: 设x是取自均值向量为,协方差矩阵为的总体 G 的一个行向量,则称TuxuxGxd)()(),(1为 n 维向量 x 与总体 G 的马氏距离。 计算总体的协方差矩阵:由于实际问题中只能得到两个样本的协方差矩阵1S、2S,因此当两个总体协方差矩阵相等时如何确定总体的协方差矩阵S的方法如下: 12 2) 1(1212211nnSnSn)(;其中1n,2n分别为两个样本的容量。 回代误判率: 设1G、2G为两个总体mXXX,21和n21,YYY是分别来自1G,2G的训练样本,以全体训练样本作为nm个新样品,逐个代入已建立的判别准则中判别其归属,这个过程称为回判。若属于1G的样品被误判为属于2G的个数为1N个,属于2G的样品被误判为属于1G的个数为2N个,则误判率估计为:)/()(21nmNNp 模型的建立模型的建立 先考虑两个总体的情况,设有两个协差阵相同的p维正态总体1G和2G,对给定的样本 Y,判别一个样本 Y 到底是来自哪一个总体,一个最直观的想法是计算 Y 到两个总体的距离。我们用马氏距离来指定判别规则,有: 1222222121,GdGdGGdGdG,如,如yyyyyy; )(2)( 2)2(2)()(,211211111112122111112121222yyyyyyyyyyyGydGyd)()(; 令),()(2)(2121121paaa; yyayayyyWppp)()()()()(111 当0)(yW,y 不考虑分类; 因此有0)(0)(21yWGyyWGy如如; 当21,和已知时,)(211 是一个已知的 p 维向量,W(y)是 y 的线性函数,称为线性判别函数。称为判别系数。用线性判别函数进行判别分析非常直观,使用起来最方便,在实际中的应用也最广泛。 由于实际问题中只能得到两个样本的协方差矩阵1S,2S因此当两个总体协方差矩阵相等时如何确定总体的协方差矩阵的方法如下: 2) 1(1212211nnSnSn)(;其中21,nn分别为两个样本的容量。 故判别模型的建立过程如下: 分别计算各组的离差矩阵21SS 和; 计算总体的协方差矩阵 13 2) 1() 1(212211nnSnSn 计算类的均值21,; 计算判别函数的系数)(211; 判别函数的常数项)()(221121 生成判别函数,进行回代误判; 代入待测样本,判类。 模型的求解模型的求解 本题中每个样本可看做一个 6 维向量,),(654321xxxxxxyi 440, 2 , 1i; ix分别表示 FRESH:保鲜品; MILK: 乳制品; GROCERY: 杂货产品; FROZEN: 冷冻开支;DETERGENTS_PAPER: 洗涤剂和纸制品;DELICATESSEN: 熟食产品; 根据附表中的数据, 在Excel中对按照销售途径1, 2进行数据的分类, 利用MATLAB软件编程(见附录程序 2)求得判别函数的系数 003-1.0e*0444. 03079. 01050. 00658. 0-0488. 00294. 0)( 常数项为7108. 1-; 即最后的线性判别函数模型为: 003-1.0e*8 .17100444. 03079. 01050. 00658. 00488. 00294. 0654321)(xxxxxxy 回代检验得出误判率1136. 0p,模型判别准确度较高可以接受。 结果分析: 观察判别函数的系数可知,54,xx对应系数的绝对值分别为 0.1050,0.3079相比其他系数较大, 说明对应的杂货产品 (GROCERY) 、 洗涤剂和纸制品 (DETERGENTS &PAPER)对销售途径影响较为明显,尤其是洗涤剂和纸制品对销售途径的判别起到决定性作用。 模型模型 销售区域判别模型销售区域判别模型多总体距离判别法多总体距离判别法 模型的模型的建立建立 多总体的距离判别法多总体的距离判别法:设有k个m元总体kGG,1,分别有均值向量i和协方差阵i,对任给的 m 元样品 Y,判断它来自哪个总体, 计算 Y 到 k 个总体的马氏距离,比较后,把 X 判归给距离最小的那个总体,若 )(min)(22YdYdiil 则iGY 检验的总体协方差矩阵相等,则: 1 -1 -1 -1-22)()(),(iiiiiiyyyyyGyd 上式中的第一项yy1-与 i 无关,舍去,得一个等价的函数: 14 1-1-2)(iiiiyYg 将上式整理得: )5 . 0(2)(11iiiiyYg 令)5 . 0()(11iiiiyYf 则距离判别法的判别函数为 )5 . 0()(11iiiiyYf 判别规则为: )(max)(1xfyfikil 则lGy 模型的模型的求解求解 根据本题中附表中的数据在Excel中销售区域分为1,2,3三类。 利用MATLAB软件编程(见附录程序3)求得三类样本的判别函数系数分别为: 3-33-2-31100064. 0-1070. 0-0589. 01287. 00195. 00668. 0100666. 0-0327. 0-1606. 01506. 00447. 0-0468. 0100384. 0-1079. 0-0772. 01268. 00177. 00572. 0)()()( 常数项分别为0.7823,1.0381,0.9156。故 3-6543213-654321-3654321110)6 .9150064. 0-1070. 0-0589. 01287. 00195. 00668. 0()(10) 1 .10380666. 0-0327. 0-1606. 01506. 00447. 0-0468. 0()(10)3 .7820384. 0-1079. 0-0772. 01268. 00177. 00572. 0()(32xxxxxxYfxxxxxxYfxxxxxxYf 判断规则: )(max)(31xfyfiil,则lGy;i=1,2,3。 回代误判率p=0.1750,判别模型准确度较高,可以接受。 由于多样本判别模型无法直接得出线性判别函数,为了找出影响销售区域的主要因素,考虑利用误判率比较的方式侧面分析六大影响因素对销售区域的影响。主要步骤如下: 依次剔除因素求出新的5维向量误判率,比较p的大小变化: 剔除因素FRESH:),(65432yyyyyY ;回代计算误判率1p; 剔除因素MILK:),(65431yyyyyY ;回代计算误判率2p; 以此类推共得6种误判率)6 , 5 , 4 , 3 , 2 , 1( ipi; 比较ip与p的大小: ppi;表示剔除因素后,误判率降低,判别模型更加精确,同样表示剔除的因素i对整体的分类不但没有推进作用,反而加大了判别的模糊性,理应剔除; ppi;表示剔除因素后,误判率增大,判别模型精确度降低,表示剔除因素i之后整体分类不再明显,即提出的因素i是影响分类的主要因素; 15 ppi;表示剔除因素后误判率不变,即该因素对分类几乎没有影响。 针对附表中的数据,利用MATLAB软件编程求解结果如下: (见附录程序4)回代误判率比较表4 表4 回代误判比较表 p 1p 2p 3p 4p 5p 6p 0.1705 0.1705 0.1705 0.1705 0.1705 0.1705 0.1705 结果分析:由表格数据,逐个去除因素后回代误判率不变,表明区域销售几乎不受任何销售产品因素的影响,这也与问题一通过相关系数法分析得出的结论相呼应。 综合上述对销售途径和销售区域分类影响因素的分析,我们建议该经销商注意加大冷冻产品与洗涤剂纸制品销售途径的研究与开拓,因为这两个因素与销售途径的相关性最大;而销售区域与这六类因素无明显关系,可能是因为销售区域的消费水平或者销售对象较为相似,因此在确定营销策略的时候,不用过多考虑销售区域的划分。 6 误差分析误差分析 1问题二在无交互作用的双因素方差分析中,我们考虑的理想化,比如在研究销售途径时,不仅控制销售区域这一因素,还需要控制其他题目中没有考虑的因素是没有影响的。显然其他因素是不可避免的,所以会对结果造成误差。 2问题三判别模型对于落在u附近的样本点,按照此判别法虽可进行判断,但误判的可能性较大。 7 模型的评价与推广模型的评价与推广 一、模型的优点一、模型的优点 1问题一中用 Excel 进行描述统计方便快捷; 2 问题二模型通过 Matlab 编程可以直接算出各因素和交互作用是否对六大类商品销售额是否显著影响,不用进行重复复杂的计算;对于双因素方差分析模型,有些指标不满足方差的齐效性,我们在模型的改进中采用了非参数检验去分析各因素的显著性; 3问题三基于马氏距离法建立判别模型使判别相比一般的欧氏距离更加准确,因为马氏距离不受量纲的影响, 且考虑到了数据之间的关系, 排除变量之间的相关性干扰。 二、模型的缺点二、模型的缺点 1问题二中方差分析模型有很多假定条件,我们采用方差分析时有些条件忽略了。在最后模型改进的时候,我们运用非参数检验进行了销售途径和销售区域显著性分析,但由于非参数检验的局限性,没能进行交互作用的显著性分析。 2问题三判别模型使用马氏距离夸大了变化微小的变量的作用。 16 三、模型的推广三、模型的推广 1描述统计对比分析模型可用 Excel 简便的描述统计工具进行推广,应用于所有需要基础统计量的领域; 2双因素方差分析模型对于问题二的双因素方差分析模型研究两个因素及其交互作用对六大类商品销售额的显著影响,我们可以考虑其他的因素,进行多因素方差分析,为销售商提供更加有效的经营决策,本模型能推广到社会经济生活的很多方面; 3判别分析模型该判别模型对于数据判别的精度较高,故可以广泛应用于销售分析中未知数据的或者丢失数据寻找以及归类,根据判别函数可以清晰得出相关因素权重大小,故该模型还可用于销售分析中重要商品类型的挖掘,为商家经营策略的制定提供简便高效的依据。 8 模型的改进模型的改进 在问题二中,问题要求分析不同销售途径、不同销售区域以及两者之间的交互作用是否会显著的影响六大类商品的销售额,最终找到影响六大类商品销售的主要因素。所以我们建立了无交互作用的双因素方差分析和有交互作用的双因素方差分析,从而找出了影响六大类商品销售的主要因素,然而做方差分析需要满足一定的假设条件: 1各处理条件下的样本是随机的; 2各处理条件下的样本是相互独立的; 3各处理条件下的样本分别来自正态总体; 4各处理条件下的样本方差相同,即具有齐效性。 所以现在对数据运用 SPSS 软件进行正态性检验和方差齐性检验。 运用 SPSS 软件对六大类商品销售额进行 Kolmogorov-Smirnov 检验, 可得到结果如图 3 图 3 假设检验汇总 17 从图 2 可以看出六大类商品的销售额都不服从正态分布 在 SPSS 软件中对销售途径和销售区域分组下的数据分别进行方差齐性检验得到结果如表 5,表 6。 表 5 销售区域的方差齐性检验 Levene 统计量 df1 df2 显著性 保鲜品 10.731 1 438 0.001 乳制品 39.072 1 438 0.000 杂货产品 98.042 1 438 0.000 冷冻开支 26.909 1 438 0.000 洗涤剂和纸制品 149.067 1 438 0.000 熟食产品 .036 1 438 0.849 表 6 销售区域的方差齐性检验 Levene 统计量 df1 df2 显著性 保鲜品 2.269 2 437 0.105 乳制品 0.182 2 437 0.834 杂货产品 0.125 2 437 0.883 冷冻开支 4.007 2 437 0.019 洗涤剂和纸制品 1.981 2 437 0.139 熟食产品 1.516 2 437 0.221 从表 5、表 6 可以看出对于销售途径因素,可知乳制品、杂货产品、冷冻开支以及洗涤剂和纸制品都不通过方差齐性检验;对于销售区域因素,可知冷冻开支不通过方差齐性检验。 所以可通过对数据进行 Boxcox 变换,使其符合正态分布,再对数据进行对数变换,倒数变换,开方变换等后进行方差齐性检验,也发现不是所有的样本方差都相同,即不具有齐效性,所以采用非参数检验。两个独立样本的比较用秩和检验,即销售途径因素用秩和检验;用多个样本的比较用 Kruskal-Wallis 检验。 即销售区域因素用 Kruskal-Wallis 检验。 1.秩和检验法秩和检验法 秩和检验法也叫 Mann-Whitney-Wilcoxon 检验,简称 M-W-W 检验,也称Mann-Whitney U 检验。 通过 SPSS 检验结果如表 7 表 7 Mann-Whitney U 检验 保鲜品 乳制品 杂货产品 冷冻开支 洗涤剂和 纸制品 熟食产品 Mann-Whitney U 16493.000 5122.500 2635.000 14984.000 1667.000 16848.500 Wilcoxon W 26646.000 49673.500 47186.000 25137.000 46218.000 61399.500 Z -3.741 -12.859 -14.854 -4.951 -15.630 -3.456 渐近显著性(双侧) 0.000 0.000 0.