第四章 概率统计模型ppt课件.ppt
第四章 概率统计模型,4.1 报童的诀窍(随机分布)4.2 机票超售策略(随机模拟)4.3 牙膏的销售量(多元线性回归)4.4 教学评估(逐步回归)4.5 Logistic回归4.6 统计聚类,确定性因素和随机性因素,1. 随机因素可以忽略,2. 随机因素影响可以简单地以平均值的作用出现,3. 随机因素影响必须考虑,确定性是理想化的,随机性是现实中必然存在的,4.1 报童的诀窍,假设新民晚报平均每天零售500份,报亭每天应该预定多少份?,4.1 报童的诀窍,问题,报童售报: a (零售价) b(购进价) c(退回价),售出一份赚 a-b;退回一份赔 b-c,每天购进多少份可使收入最大?,分析,购进太多卖不完退回赔钱,购进太少不够销售赚钱少,应根据需求确定购进量,每天需求量是随机的,优化问题的目标函数应是长期的日平均收入,等于每天收入的数学期望,建模,设每天购进 n 份(不随机),日平均收入为 G(n),随机因素的主要来源每天需求量为 R ,概率 P(R=r)=f(r), r=0,1,2,准备,求 n 使 G(n) 最大,已知售出一份赚 a-b;退回一份赔 b-c,日收入为,n=E(R) ?,变限积分求导公式,求解,为简化计算将r视为连续变量,?,结果解释,取n使,a-b 售出一份赚的钱 b-c 退回一份赔的钱,通常,a-bb-c, R接近正态分布,nE(R),为什么用随机分布模型?,需求R是随机的由于收入是需求的非线性函数,日平均收入ES(n)不是简单地由日平均需求E(R)决定R的随机分布对最优决策有影响若收入是需求的线性函数,日平均收入可用日平均需求来表示,就不必用随机模型。,怎样运用随机分布模型?,关键:搞清楚随机性的主要来源是什么?这个主要来源设为一个随机变量(如报童模型中每天的需求量R)这个随机变量的分布是容易得到的;其他随机变量(如收入)可以写成它的函数。来源变量也可以考虑多个,但是如果他们不独立,是很难处理的。,算例,若每份报纸的购进价为0.75元,售出价为 1元,退回价为0.6元,需求量服从均值500份,均方差50份的 正态分布,报童每天应购进多少份报纸才能使平均收入最高?,问题的推广,现实情况:每天的需求并不完全是随机的,如周末或重大事件期间销量会上升,天气不好时销量会下降。解决途径一:利用历史数据;解决途径二:利用时间序列分析方法;解决途径三:利用Monte Carlo数值模拟。,Monte Carlo模拟,若明天需求量依赖于气温T,R=500+-|T-20|, N(0,502), U(5,15), 与独立Matlab程序(明天T=5)求得n0=371(近似).a=1;b=0.75;c=0.6; T=5; N=1000; e=normrnd(0,50,1,N); d=unifrnd(5,15,1,N);R=500+e-d*abs(T-20);S0=0;for n=100:800, S=mean(a-b)*R-(b-c)*(n-R).*(Rn);if SS0, S0=S;n0=n;end;end;n0,S0,习题,1.1国际市场上每年对某种商品的需求量为一个随机变量(单位:千吨),根据预测,它服从2,4上的均匀分布,并已知每售出1千吨此种商品,可以挣得外汇3千万美元,但若售不出去,而屯售于仓库,每年需花费保养费每千吨为1千万美元,问应组织多少货源可使平均收益达到最大?,天猫补救“超卖”,天猫方面承认“双11”当天因流量巨大,导致其系统商品库存数据与商家的前后台数据对接不准,确有少部分订单出现“超卖”。为此,天猫在致歉的同时给出3条补救意见商家根据自己的实际情况对消费者进行额外补偿,如店铺优惠券、现有商品5折销售等;对于未发货的“超卖”订单,支持进行全额退款;对于所有“超卖”订单,买家都可获得商品价格30%、最多500元的天猫积分。其中,最后一条是天猫首次就“超卖”明确表示赔付。,2013阿里巴巴双11成交350亿,9小时超过美国“网络星期一”全天 !,4.2 机票超售(overbook )策略,2013-10-21 北京晚报:三天前,徐先生网上为朋友订购了大新华航空公司于昨天下午3点55分从北京飞往哈尔滨的机票。昨天下午,朋友两点多就来到了机场,却在换登机牌时被工作人员告知,登机牌已经换完,飞机上“满座”,已无空位置。“为什么我买了票却不让我上去?”由于着急赶时间,徐先生的朋友急切地与工作人员交涉,结果被告知,“很多航班都会这样售票,防止有人买票后临时有事退票或改签,导致飞机坐不满人,浪费资源。”,9.6 机票超售(overbook )策略,问题分析:订票的乘客可能不来登机(no-show);只按容量订票可能会出现很多空位从而损失利润;超额订票可能导致乘客不能登机(deny-boarding, DB )而赔偿;找一个最佳订票数量,模型假设,飞机容量n, 机票价格g, 固定飞行成本r;订票限额m=n, 乘客是否到来随机独立,每个乘客no-show的概率p; no-show数KB(m,p)每位DB无须付机票费,且赔偿b.,基本模型,利润期望利润 (q=1-p).求m使E(S(m)最大,订票数m, 容量n, no-show人数 KB(m,p)到来(on-show)人数m-K,模型求解,方法一:数值模拟(实际计算适用)对m=n, n+1, n+2, ., 计算E(S(m), 求得最优m注意到最优解与r无关Matlab程序n=300;p=0.05;q=1-p;g=1000;b=200;m=n+1;for k=0:(m-n-1) P(k+1)=nchoosek(m,k)*pk*q(m-k);endES=q*m*g-(g+b)*(m-n-(0:(m-n-1)*P,模型求解,ES0=ES-1;while ESES0 m=m+1;ES0=ES; for k=0:(m-n-1) P(k+1)=nchoosek(m,k)*pk*q(m-k); end ES=q*m*g-(g+b)*(m-n-(0:(m-n-1)*P;endm,ES0%计算结果m=321(但计算有溢出警告),模型求解,方法二:模型近似化简(理论上比较漂亮)当m很大, KB(m,p)近似N(mp, mpq) q=1-p.,模型求解,令dE(S)/dm=0得,模型求解,由于(-t)= (t) ,所以可以证明zR第3项n=300, p=0.05, b/g=0.2, 计算得 m=319,思考:还可以对第3项做更精细的估计,从而得到更高精度结果。,模型求解,方法三:Monte Carlo模拟(不求数学期望,从最原始的随机数开始模拟,忽略r)clear;n=300;p=0.05;g=1000;b=200;for i=0:50; m=n+i; K=binornd(m,p,1,10000); ES(i+1)=mean(g*(m-K).*(m-Kn);endmaxES,id=max(ES)m=n+id%计算结果m=321,考虑不同客源的模型,第一类顾客(no show概率大):后付费,高票价。第二类顾客:先付费,低票价。设打折,打折票t张,第二类顾客no show概率=0.no show KB(m-t, p)数学分析及求解,参考文献,李冰州 , 能力随机的海运集装箱收益管理超订模型, 西南交通大学学报 2006 /41 /4 夏剑锋 基于二项式分布的航空机票超售模,中国民航学院学报 , 2006 /24 /1衡红军, 航班座位超售量的确定.计算机工程 2005 /31 /7 鞠彦兵, 航空客运超售风险研究 北京航空航天大学学报 2002 /28 /5,习题,2.1 英国的青年旅社联盟(Youth Hostel Association)采用网上订票,房客订票时须付10%不退还的房费, 余额90%入住时才付(当然不住的房客就不用付这90%)。剑桥有一家YHA连锁,500个床位,每个床位每天均价为20英镑。每个订票的房客有30%的可能性不会来住。如果YHA只按照500个床位订出,常常会因床位空置而造成损失,所以YHA会采取超售策略。当到来的房客超出其容纳能力时,YHA就到附近宾馆安排房客入住,宾馆的价格是旅社的3倍。由于房客只要付旅社的房价就住上宾馆,他们当然不会有什么怨言。试研究这一问题以帮助YHA确定其超售额度。,趣味思考题,假设今天是你的生日,有个富豪为了帮你庆祝生日,决定送你一副他收藏的油画。你呢,对油画这种东西一无所知,但是呢,每一幅油画上面都有一个标签,写着这幅油画的价格。富豪一共有100幅油画,他从100幅油画中间每次随机抽取一幅画,(你可以看到油画上的标签标注的价格)你可以选择要或者是不要,但是如果你不要了之后就不能反悔,也就是不能再回头要这幅画了。问题来了,你要怎么样的策略才能提高你拿到最高价格的油画的概率?可以的话,根据你的方案计算出概率。,回归模型是测试分析方法建立的最常用的一类模型,数学建模的基本方法,机理分析,测试分析,通过对数据的统计分析,找出与数据拟合最好的模型,通过实例讨论如何选择不同类型的模型,对软件得到的结果进行分析,对模型进行改进,由于客观事物内部规律的复杂及人们认识程度的限制,无法分析实际对象内在的因果关系,建立合乎机理规律的数学模型。,4.3 牙膏的销售量,问题,收集了30个销售周期本公司牙膏销售量、价格、广告费用,及同期其它厂家同类牙膏的平均售价 。,问题,建立牙膏销售量与价格、广告投入之间的模型,预测在不同价格和广告费用下的牙膏销售量,基本模型,y 公司牙膏销售量,x1其它厂家与本公司价格差,x2公司广告费用,x1, x2解释变量(回归变量, 自变量),y被解释变量(因变量),0, 1 , 2 , 3 回归系数,随机误差(均值为零的正态分布随机变量),多元线性回归,一个被解释变量y,多个解释变量x=(x1,x2, xp).模型: y = 1x1+ 2x2+ pxp+ ,即 y = x+, N(0, 2)现有n组观测数据,求并检验模型的有效性。参数估计:设Y和X分别为相应n组观察值的n1向量和np矩阵,参数估计,X = n3数据矩阵, 第1列为全1向量,注意:线性回归可以建非线性函数模型,多元线性回归y = x+的方差分析,误差平方和分解: SST=SSE+SSR总误差平方和SST: 代表直接用y的均值来估计y时的误差(即i=0时)残差平方和SSE: 代表用回归模型不能解释的那部分误差回归平方和SSR: 代表用回归模型可以解释的那部分误差好的模型就是要使得SSE尽可能小,SSR尽可能大。R2统计量:R2=SSR/SST表明模型能解释的信息比例. R2越接近1, 说明模型越显著。模型的显著性检验 H0: =0, H1: 0 (F检验) 当F统计量很大(相应P值很小), 拒绝H0参数i的显著性检验: 若其置信区间不包含0点, 则显著,假设检验P值判别法,临界值法: F F1-, 拒绝原假设H0,P值法: P, 拒绝原假设H0,P值法更灵活(统计软件用),例子:P值判别法的解释,已知高中男生身高服从N(,0.12),现随机取25名某校男生,计算得平均身高1.74cm,问是否认为显著大于1.7?(显著性水平=0.05)H0: =1.7 (cm), H1: 1.7方法一(临界值法):当H0真,平均身高N(1.7,0.022), 临界值约1.7331.74)=0.023小于 ,拒绝H0.如果变为0.01,用方法二P值 , 则接受原假设。但用方法一法就必须重新计算临界值,比较麻烦。,MATLAB 统计工具箱,模型求解,b,bint,r,rint,stats=regress(y,x,alpha),输入,x= n4数据矩阵, 第1列为全1向量,alpha(置信水平,0.05),b的估计值,bint的置信区间,r 残差向量y-xb,rintr的置信区间,Stats检验统计量 R2,F, P ,2,yn维数据向量,输出,由数据 y,x1,x2估计,结果分析,y的90.54%可由模型确定,F远超过F检验的临界值,远小于=0.05,2的置信区间包含零点(右端点距零点很近),x2对因变量y 的影响不太显著,但由于x22项显著,可将x2保留在模型中,模型从整体上看成立,F0.95(3, 26)=2.97,销售量预测,价格差x1=其它厂家价格x3-本公司价格x4,估计x3,调整x4,控制价格差x1=0.2元,投入广告费x2=6.5百万元,销售量预测区间为 7.8230,8.7636(置信度95%),上限用作库存管理的目标值,下限用来把握公司的现金流,若估计x3=3.9,设定x4=3.7,则可以95%的把握知道销售额在 7.82303.7 29(百万元)以上,(百万支),预测置信区间,Matlab程序,%将数据写在Excel文件jye326.xls中data=xlsread(jye326.xls,Sheet1,A1:C30)X1=data(:,2);X2=data(:,1);Y=data(:,3);X=ones(30,1),X1, X2, X2.2;b, bint,r, rint, stats=regress(Y,X)%以下作预测x0=1;0.2;6.5;6.52; xb=x0*bd=tinv(1-0.05/2,30-3-1)*sqrt(stats(4)*(1+x0*inv(X*X)*x0)xb-d,xb+d,SPSS软件,SPSS软件,复制数据进SPSS表,定义变量x2,x1,y增加一行:x2=6.5, x1=0.2转换计算变量: x3=x2*x2分析回归线性选因变量y, 自变量x1,x2,x3“保存”按钮,“预测区间”选“单值”选“确定”执行。,改进模型1,去掉x2项,模型显著,参数显著,但R2有所下降, 2变大,改进模型2,模型显著、参数显著, 且R2上升, 2下降,模型销售量预测比较,(百万支),区间 7.8230,8.7636,区间 7.8953,8.7592,(百万支),控制价格差x1=0.2元,投入广告费x2=6.5百万元,预测区间长度更短(精度更高),略有增加,原始模型,改进模型2,x2=6.5,x1=0.2,x1,x1,x2,x2,模型 与x1,x2关系的比较,解释性好,精度高,更完整的模型:完全二次多项式,MATLAB中有命令rstool(X,Y)直接求解,注意格式与regress区别:X, Y次序相反, 且这里X无须加第一列1,%接前面Matlab程序X=X1,X2,rstool(X,Y),更完整的模型:完全二次多项式,从输出 Export 可得,小结,回归模型无机理分析,直接从数据建模;可根据实际问题选择合适的变量(与被解释变量相关性大,数据易取得)建模;可选择间接变量建模, 以简化模型;可考虑2次项和交叉项,以改进拟合度;回归模型需经过检验改进优化;Matlab命令regress和rstool;可以用多元线性回归建非线性函数模型.,习题,3.1 下列表格列出了某城市18位35岁44岁经理的年平均收入(千元),风险偏好度和人寿保险额(千元)的数据,其中风险偏好度是根据发给每个经理的问卷调查表综合评估得到的,它的数值越大,就越偏爱高风险。研究人员想研究此年龄段中的经理所投保的人寿保险额与年均收入及风险偏好度之间的关系。研究者预计,经理的年均收入和人寿保险额之间存在着二次关系,并有把握地认为风险偏好度对人寿保险额有线性效应,但对风险偏好度对人寿保险额是否有二次效应以及两个自变量是否对人寿保险额有交互效应,心中没底。请你通过表中的数据来建立一个合适的回归模型,验证上面的看法,并给出进一步的分析。,4.4 教学评估(逐步回归),学生评价老师指标Y: 对教师的总体评价X1: 内容合理性X2: 讲课逻辑性X3: 答疑有效性X4: 交流有助性X5: 教材帮助性X6: 考试公正性12位教师, 15门课程,X1 X6不是每个对Y都有显著影响X1 X6有强相关性,指标能否简化?,简单有效的模型给老师提出建议,逐步回归,目标: 用尽量少的解释变量达到尽量好的效果思路:确定初始解释变量集合从集合外解释变量引入一个对因变量影响显著性最大的检验集合中解释变量的显著性移出对因变量影响不显著的回到2), 直至无法有新变量引入或移出Matlab实现: stepwise,Matlab实现: stepwise,%数据复制到jye352.xlsdata=xlsread(jye352.xls,Sheet1,A1:G15);X=data(:,1:6);Y=data(:,7);corrcoef(X,Y)stepwise(X,Y) %一直执行next step%蓝色为inmodel变量, 红色为非inmodel变量,均方残差RMSE(Root Mean Squared Error)RMSE =,SPSS实现:逐步回归,复制数据进SPSS表,定义变量x1-x6,y分析回归线性“方法”选“逐步”,结果分析,Y=-1.2471+0.5099X1+0.7678X3+影响分数的主要指标是X1,X3结果分析: corrcoef(X,y) 1.0000 0.9008 0.6752 0.7361 0.2910 0.6471 0.8973 0.9008 1.0000 0.8504 0.7399 0.2775 0.8026 0.9363 0.6752 0.8504 1.0000 0.7499 0.0808 0.8490 0.9116 0.7361 0.7399 0.7499 1.0000 0.4370 0.7041 0.8219 0.2910 0.2775 0.0808 0.4370 1.0000 0.1872 0.1783 0.6471 0.8026 0.8490 0.7041 0.1872 1.0000 0.8246 0.8973 0.9363 0.9116 0.8219 0.1783 0.8246 1.0000X1, X2, X3与Y显著相关,考虑使用这3个变量X1X2, X2 X3显著相关,但X1 X3不显著相关,有了 X1 和X3 , X2的影响可以被X1 和X3表达,可去除X2也可以考虑平方项,交叉项等。,X1提高1分Y提高0.5分, X3提高1分Y提高0.77分.,模型解释,X1 内容组织的合理性;X2 问题展开的逻辑性;X3 回答学生的有效性;X4 课下交流的有助性;X5 教材的帮助性;X6 考试的公正性;Y 总体评价.,逐步回归是从众多变量中挑选出影响显著变量 的有效方法.,原有变量的平方项、交互项等也可以作为新变量 加入到候选行列,用逐步回归处理.,逐步回归小结,习题,4.1 用逐步回归法分析牙膏销售量问题,删除不显著的解释变量。基本模型 ;完全二次模型。,