第3讲随机决策理论与方法课件.ppt
决策理论与方法(3)随机决策理论与方法(1),合肥工业大学管理学院2023年3月18日,2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,随机性决策,风险性决策(随机性决策):指有多种未来状态和相应后果,但只能得到各种状态发生的概率而难以获得充分可靠信息的决策问题。特点:状态的随机性;决策结果的效用特性。决策的已知变量:状态空间的概率分布=,后果的效用函数(或损失函数):u(cij),cij表示采取方案ai时出现状态j的后果解决问题的主要理论方法:概率论与数理统计,2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,随机决策理论与方法,1、主观概率2、效用函数3、决策准则4、贝叶斯决策分析,2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,主观概率概率的定义,古典概率的定义:在相同条件下进行了n次试验(随机试验),其中事件A发生的次数nA称为事件A发生的频数,比值nA/n称为事件A发生的频率,记为fn(A),则古典概率的定义为:p(A)=limnfn(A)Laplace的定义:p(A)=k/n;其中k为事件A所包含的基本事件数,n为基本事件ei的总数。(基本事件数有限,每个基本事件等概率)公理化定义:E是随机事件,S是E的样本空间,对E的每一事件A,对应有确定的实数p(A),若p(A)满足:非负性:p(A)0;规范性:p(S)=1;列可加性:对两两不相容事件Ak,有p(kAk)=kp(Ak)。(AiAj=,ij),2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,主观概率概率的定义,客观(Objective)概率:上述三种定义的概率是在多次重复试验(随机试验)中,随机事件A发生的可能性的大小的度量,称为客观概率。主观(Subjective)概率:在实际管理决策中,许多事件的发生概率是无法通过随机试验获得的,或条件不允许,或事件本身不允许。因此需要一种方法来人为设定事件发生的概率,称为主观概率。主观概率是人们根据经验、各方面的知识以及了解到的客观情况进行分析、推理、综合判断,对特定事件发生的可能性的信念(或意见、看法)的度量(Savage,1954)。,2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,主观概率先验分布与先验假设,先验分布(Prior Distribution):根据先验信息所确定的概率分布叫先验分布,获得先验分布是贝叶斯分析的基础。决策中先验分布的获得具有高度的主观性。先验假设:为使先验分布估计规范化,需要做一定的假设。连通性假设:指事件A和事件B发生的可能性是可比的,即p(A)p(B),p(A)p(B),p(A)p(B),p(B)p(C),则p(A)p(C)。(满足连通性和传递性的二元关系才能构成完全序)部分与全体关系假设:若事件A是事件B的一部分,则p(B)p(A)。,2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,主观概率先验分布估计:比较法,比较法1-离散型(对事件发生的各种状态加以比较确定相对似然率)某气象专家对当年的气候状况进行评估,认为当年气候正常(1)与受灾的可能性之比约为3:2;如果受灾,则水灾(2)、旱灾(3)的可能性相当。据此,我们可推算出当年气候状况的先验分布:(1)+(2)+(3)=1;(1)/(2)+(3)=3/2;(2)=(3)解得:(1)=0.6,(2)=0.2,(3)=0.2思考:设某决策问题有n个状态,有m个专家对各状态发生的可能性进行了比较评估,我们如何综合利用所有专家的评估结果得到最终的先验分布?,2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,主观概率先验分布估计:打赌法,打赌法(离散型)设打赌者(A)的个人财产为W。设事件E发生时A获得收入为p,(0p1;pW:保证打赌者的效用函数是线性的),不发生时A获得的收入为1-p。调整p值使A感觉无论事件E是否发生,其收入基本相同,即(E)p=(1-(E)(1-p)。则事件E发生的可能性(E)=1-p。,2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,主观概率先验分布估计:直方图法,直方图法(适合于自然状态在实轴某个区间连续取值)区间离散化:把的取值范围划分为若干子区间1n;赋值:估计每个区间的似然率(i),据此作出直方图;变换:将直方图拟合为概率分布函数F(x)=x()。,不足之处:区间数n难以确定似然率(i)估计困难F(x)通常有较大的尾部误差,2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,主观概率先验分布估计:比较法,比较法2-连续型离散化:同直方图法比较赋值选择一个似然率最大的子区间k作为基准,设其相对似然率为Rk,然后给出其他各区间i相对于k的似然率Ri,则(i)=Ri/Ri由决策者给出每两个子区间似然率的比例关系:rij=(i)/(j),然后计算出每个状态i的似然率(i)。变换拟合:同直方图法思考:(1)如果决策者判断没有误差,即rij*rji=1,rij*rjk=rik,如何求(i)?(2)如果决策者判断有误差,则又如何求(i)?,2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,主观概率先验分布估计:分位点法,区间对分法(分位点法)-连续型确定事件不可能发生的临界状态取值(如某地区人口出生率不可能低于9,但也不可能超过18);求中位数:当状态取值为此值时,大于或小于此值的状态出现的概率相等(如某地区人口出生率的中位数为12.5);确定上下四分位点;确定八分位点(一般仅取到八分位点)。,2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,主观概率先验分布估计:分布函数法,与给定形式的分布函数相匹配(最常用也容易滥用)Matlab工具箱:Statistics Toolbox/Probability Distributions均匀分布(连续型):如果随机变量落在某个区间(a,b)中任意等长度的子区间内的可能性相等,则它服从均匀分布,均匀分布的概率密度函数为:Matlab函数:unifpdf(x,a,b),unifit(DATA),2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,主观概率先验分布估计:分布函数法,二项分布:(离散型)每次随机试验中事件A出现的概率为p,n次独立试验中事件A出现k次的概率服从二项分布:Matlab函数:binopdf(k,n,p),binofit(k,n)泊松分布:(离散型)每次随机试验中事件A出现的概率为p,n次(n,但n*p=为常数)独立试验中事件A出现k次的概率服从泊松分布:Matlab函数:poisspdf(k,),poissfit(DATA),2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,主观概率先验分布估计:分布函数法,正态分布(高斯分布):(连续型)若连续型随机变量的概率密度函数为:则称随机变量服从参数为、2的正态分布Matlab函数:normpdf(x,),normfit(DATA)。参见相关统计学书籍,看看还有哪些分布函数可供选择使用?,2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,随机决策理论与方法,1、主观概率2、效用函数3、决策准则4、贝叶斯决策分析,2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,效用函数问题的引入,复习信息集:为减少行动集、自然状态集、后果集的不确定性开展调查研究所获得的信息。自然状态集:事物所有可能的自然状态=1,n行动集:决策主体可能采用的所有行动集合A=a1,am后果集:决策问题各种可能的后果集合C=cij=c(ai,j),cij表示决策人采取行动ai时出现自然状态j时的后果。主观概率是用来量化自然状态的随机性,那么我们如何度量一个后果的价值呢?面临两个难题:后果价值的量化存在困难(如降价促销对品牌的伤害);即使能够量化标度,但相同标度值的价值因人而异。,2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,效用函数问题的引入,在各类决策中,常常面临着这种选择:风险小但期望收益也小;期望收益大但风险也大!不同的决策人有不同的选择,相同的决策人在不同的情境下选择也不同。那么在决策中如何描述或表达后果对决策人的实际价值,以便反映决策人心目中对各种后果的偏好次序呢?,2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,效用函数效用的定义,效用就是偏好的量化值。决策的目标就是使期望效用极大化。基本概念及符号严格序:ab表示a优于b。满足传递性和非对称性。无差异:ab表示a与b无差异。满足自反性、对称性和传递性。弱序:ab表示a不劣于b。满足自反性、传递性和反对称性。展望(prospect)(事态体):各种后果(r种)及后果出现的概率的组合,记为:Pj=,(j=1,2,m;m为行动的可能种数),2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,效用函数效用的定义,复合展望:当无法确定采取某个行动时,可随机选择一种行动,设选择行动aj的概率为qj。则决策的展望就是一种复合展望,记为P=。所有展望(包括简单展望和复合展望)构成展望空间。效用的定义若展望空间上的实值函数u对于展望空间的任意两个展望P1、P2,有P1P2 iff u(P1)u(P2),则称u为效用函数。,2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,效用函数效用的定义,效用存在性公理(理性行为公理)连通性:任意两个展望的优劣都是可比的传递性:展望的优劣满足传递性复合保序性:展望的优劣关系是可以复合的,且复合不会破坏原有的优劣关系展望的优劣是相对的,没有无限优的展望,也不存在无限劣的展望。理性行为公理认为合乎理性的决策人在进行价值判断时一定能满足这些公理。(实际决策中是否存在某种悖论呢?),2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,效用函数效用的定义,Allais悖论,实际上决策B是在决策A的基础上同时减去了89%的机会获得50万元,复合保序性没有得到满足,2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,效用函数效用的定义,思考:效用函数一定是连续的吗?是否存在某种临界点使得效用函数是一种分段函数,而在分段函数内满足效用存在公理?效用的公理化定义:在上述公理系统中,若展望空间上存在实值函数u,有:对展望空间中的任意展望P1、P2,P1P2 iff u(P1)u(P2)u(P1+(1-)P2)=u(P1)+(1-)u(P2)(复合展望的效用等于展望效用的复合)对满足上述条件的u1,u2,必有u1(Pi)=bu2(Pi)+c,其中b,cR1,b0。(任意两个决策人的效用是线性相关的),2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,效用函数基数性和序数性,前述定义的效用是一种基数效用,不仅能够反映决策者的偏好次序,还能够反映决策者的偏好强度。但在实际决策中,有时只需要偏好次序而不一定需要知道偏好强度就可以决策。此时只需要序数效用就可以了。有关序数效用的应用在多属性决策中介绍。Hicks对效用函数的基数性和序数性的比喻:如果知道两个人的身高,那么我们可以把高个儿排在第一位;如果不知道他俩的身高也没关系,让他们比一下就可以了。,2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,效用函数效用函数值的估计,概率当量法(Von Neumann,Morgenstern,N-M法):设决策系统的自然状态集=1,n、行动集A=a1,am、后果集C=cij=c(ai,j),最优后果为c*=max cij,最劣后果为c0=min cij。则对于任意后果cij的效用值u(cij),可按以下步骤获得:设u(c*)=1,u(c0)=0;建立简单展望,p可调反复向决策人提问,改变可调概率p,使得当p=pij时得到如下的无差异关系:cij测得后果cij的效用值为:u(cij)=pij*u(c*)+(1-pij)*u(c0)=pij,2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,效用函数效用函数值的估计,确定当量法(修正N-M法):设u(c*)=1,u(c0)=0;建立简单展望,p为0-1间的给定值,如p=0.5反复向决策人提问,改变cij得到如下的无差异关系:cij测得后果cij的效用值为:u(cij)=p*u(c*)+(1-p)*u(c0)=pij增益当量法:已知u(cij)和u(c0),确定u(c*)的方法损失当量法:已知u(cij)和u(c*),确定u(c0)的方法,2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,效用函数效用函数的构造(离散型),看球的效用函数构造(不考虑经济成本)构建问题的决策树,根据一般偏好,四种后果的优劣是C2C3C4C1;令u(C1)=0,u(C2)=1;询问1:“下雨看电视转播”的后果与“现场看球”时有多大的概率下雨被淋相当?(例如:0.3,则u(C3)=0.7)询问2:“天晴看电视转播”的后果与“现场看球”时有多大的概率下雨被淋相当?(例如:0.6,则u(C4)=0.4)一致性检验:用C3,C4加上C1(或C2)进行校验,直至一致性得到满足。,2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,效用函数效用函数的构造(连续型),若后果是连续型,则可通过分析u(c)的若干特征值,求出特征点的效用后再连成光滑曲线。例:试作出每天投入学习的时间t对应的效用曲线。分析特征点:u(t=0)=0;u(tTM)=0(TM=?);状态导入期(0t0),效用增加较慢;状态稳定期(t0t1),效用与投入学习的时间基本成比例关系;效率下降,效用增加期(t1tm),效用是投入学习的时间的单调增函数,但增长率小于状态稳定期且随着时间的增加越来越小,最终达到零(t=tm),此时效用达到最大;当投入的学习时间大于tm时,将会得不偿失,学习效率急剧降低,效用减少。,2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,效用函数效用函数的构造(连续型),2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,效用函数风险与效用,风险:遇到破坏或损失的机会或危险。“风险”:以打鱼捕捞为生的渔民们在长期的捕捞实践中,深深的体会到“风”给他们带来的无法预测无法确定的危险,他们认识到,在出海捕捞打鱼的生活中,“风”即意味着“险”,因此有了“风险”一词的由来。风险包含两个方面的内容:一是后果的损失严重程度;二是损失出现的可能性大小。参考:http:/,2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,效用函数风险与效用,风险的度量方差:设某决策方案a的后果为收益y,y的概率密度函数为f(y),期望值为E(y),则方差可用来度量风险,方差越大风险越大。协方差:若期望收益为决策人设定的目标收益c,则可用协方差度量风险。临界概率:小于目标收益的概率。,2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,效用函数风险与效用,效用与风险:效用反映的就是决策人对风险的一种态度。,U(t),Umax=1,C(万元),风险厌恶型,风险中立型,风险追求型,0.5,0,9,12.5,14,25,2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,随机决策理论与方法,1、主观概率2、效用函数3、决策准则4、贝叶斯决策分析,2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,决策准则决策问题的表示,决策树表示法,决策点,机会点,C1,决策枝,机会枝,后果点,C2,C3,C4,后果值,a1,a2,(1),(2),(1),(2),2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,决策准则决策问题的表示,决策表表示法,状态,行动,后果(效用值、损失值、价值),2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,决策准则最大可能值准则,决策者决策时都需要根据某种准则来选择决策方案决策准则。准则不同,决策结果就可能不同。下面介绍风险型决策中常用的几种决策准则。最大可能值准则:(众数原则),注:后果为损失值,此准则在状态出现的概率差距不大时的决策效果可能很差!,2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,决策准则贝叶斯准则,贝叶斯准则:期望效用最大或期望损失最小。在实际决策中,一般先确定后果对决策人的实际价值即效用函数(若是损失则使用负效用)(称为伯努利过程),然后再应用贝叶斯准则。,注:后果为损失值,2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,决策准则E-V准则,E-V准则:用期望与方差(度量风险)共同判决一个方案的优劣。帕累托优:若不存在方案al,使得方案ak的期望与风险均劣于al,称ak为有效方案或帕累托优。评价函数:fi(E,V)=E(ai)+i2。反映了决策人的风险态度,0风险厌恶;=0风险中立(对应于贝叶斯准则);0风险追求。,2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,决策准则E-V准则,2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,决策准则优势原则,在实际决策中,主观概率的确定有时是很困难的,因此可利用优势原则进行决策。给不出准确的主观概率;任何两个行动(方案)之间都不存在绝对优;决策方法(以损失函数为例):列出方案ak最优的判别不等式组E(ak)E(ai),i=1,m求解不等式组的解即得到ak方案最优的概率分布判断这种概率分布是否可能,2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,当(1)0.6时,方案a1最优;当(1)0.6时方案a3最优;方案a2被称为强劣的(strongly dominated)。,决策准则优势原则,注:后果为损失值,2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,随机决策理论与方法,1、主观概率2、效用函数3、决策准则4、贝叶斯决策分析,2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,贝叶斯决策分析贝叶斯定理,条件概率:设A、B为随机试验E中的两个事件,在事件A发生条件下事件B发生的概率称为条件概率,记为(B|A),且(B|A)=(AB)/(A)。(AB)若Aj(j=1,n)是样本空间S中n个互不相容的事件,且(Aj)0,(AkAl)=0(kl);j(Aj)=S。称Aj是样本空间的一个划分。则对任一事件B,有:,2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,贝叶斯决策分析贝叶斯定理,贝叶斯定理:已知(B|Aj)、(Aj)(先验概率)(j=1,n),求当事件B发生(随机试验的结果或观察值)时Ak发生的概率(后验概率)。贝叶斯定理在决策分析中的意义:在实际决策中,我们需要准确估计的随机变量是未来的自然状态,而通过随机试验所观察到的往往是与之相关的另一个随机变量。例如,疾病诊断往往是通过观察症状如发烧、咳嗽等来判断其疾病如感冒、甲流。贝叶斯定理可以帮助我们判断当出现发烧时患甲流的概率。,2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,贝叶斯决策分析贝叶斯定理,例:经临床观察,患甲流的病人约70%发烧超过38度,患感冒的病人约40%发烧超过38度,而肺炎病人中有60%发烧超过38度。统计表明当前甲流发病率约15,感冒7,肺炎1。现有一病人发烧超过38度,请诊断该病人最可能患上哪种疾病。解:记发烧超过38度的事件为X;患甲流、感冒、肺炎分别记为A、B、C。先验概率分别为(A)=0.015,(B)=0.007,(C)=0.001。条件概率分别为(X|A)=0.7;(X|B)=0.4;(X|C)=0.6。则(X)=0.70.015+0.40.007+0.60.001=0.0139(A|X)=0.70.015/0.0139=75.54%(B|X)=0.40.007/0.0139=20.14%(C|X)=0.60.001/0.0139=4.32%,2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,贝叶斯决策分析贝叶斯分析,贝叶斯风险:当决策人通过随机试验得到观察值x后,需要根据观察值和某种决策准则选择行动a,即a=(x)。对于自然状态及其先验概率(),采取策略时损失函数l(,(x)对随机试验结果x和自然状态的期望值称为贝叶斯风险,记为r()。r()=E(Ex(l(,(x)=xl(,(x)p(x|)()贝叶斯规则(正规型):若策略空间存在某个策略*,使得对于任意其他策略,均有r(*)r(),则称*为贝叶斯规则或贝叶斯策略。即r(*)=minr(),2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,贝叶斯决策分析贝叶斯分析,贝叶斯规则(扩展型):在实际应用中,当行动集、状态集、观察值集中的元素较多时,策略集很大,获得r()的最小值很困难,因此可对r()的计算公式进行变换:r()=xl(,(x)p(x|)()=x l(,(x)p(x|)()若使 l(,(x)p(x|)()达到极小,r()必然达到最小又(x)0,所以可使 l(,(x)p(x|)()/(x)达到极小后验概率(|x)=p(x|)()/(x),因此r()的极小化问题转变为求 l(,(x)(|x)的极小化问题。,2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,贝叶斯决策分析贝叶斯分析,扩展型贝叶斯分析过程,原始信息:先验分布(),追加样本信息:观察值x,贝叶斯定理:后验概率(|x),求*:计算r(),找出使后验期望损失最小的,2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,贝叶斯决策分析贝叶斯分析,信息的价值:随机试验获得观察值x是需要成本的,而观察值x也可以帮助我们减少决策损失。那么随机试验观察到的信息有多大价值呢?假设我们未进行任何观察,那么根据贝叶斯准则,最小决策损失期望为:min E(li(,ai)若试验获得了观察值x,则最小贝叶斯风险即为最小决策损失:min r()观察信息的期望价值为:min E(li(,ai)-min r(),2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,贝叶斯决策分析贝叶斯分析,例:(油井钻探问题)某公司拥有一块可能有油的土地,公司或自己开采,或以以下两种模式出租:无条件出租,租金45万元;有条件出租,产量在20万桶或以上时,每桶提成5元;产量不足20万桶不提成。设钻井费用为75万元,采油设备费25万元(有油时),油价为15元/桶。假设油产量的可能状态及其先验概率分布如表。若决策人风险中立,决策人该选择什么行动?,2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,贝叶斯决策分析贝叶斯分析,解:公司可采取的行动有3种:a1-自己开采;a2-无条件出租;a3-有条件出租。决策表如下(单位:万元):根据贝叶斯准则,方案a1效用最大,故应自己钻井。,2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,贝叶斯决策分析贝叶斯分析,如果通过地质勘探可以进一步了解该地区的产油情况,那么我们又如何决策?假设勘探成本是12万元,统计表明,产油量与地质构造(共四种类型,用xk表示)间的关系p(xk|j)如下表。,2023年3月18日8时1分,决策理论与方法-随机决策理论与方法,贝叶斯决策分析贝叶斯分析,解:计算后验概率,即已知地质结构情况下产油状态的概率,并给出决策表。,