基于马尔科夫决策过程的货物流的配给策略.doc
《基于马尔科夫决策过程的货物流的配给策略.doc》由会员分享,可在线阅读,更多相关《基于马尔科夫决策过程的货物流的配给策略.doc(6页珍藏版)》请在三一办公上搜索。
1、基于马尔科夫决策过程的货物流的配给策略徐东升1 , 周伟华2(11 中山大学管理学院 , 广州 510275 ; 21 浙江大学管理学院 , 杭州 310028)摘要 : 随着全球化趋势和不断增长的运输量 , 许多大型货站已经开始使用综合自动化装运处理系统 。在这些货站中 , 不同起点 (如仓库入口点) 和讫点 (如仓储货架) 之间的路径选择是一个至关重要的决策 , 本文中 , 我 们研究此类路径最优问题 , 并提出了有效的货物流配给策略 。该策略中不同的货物有不同的路径集合与之对应 , 且只有在权重较高的路径的饱和度较低时 , 才允许权重较小的货物在权重较高的路径上运输 , 不允许权重高的货
2、 物在权重低的路径上运输 。我们引入马尔可夫决策过程模型进行决策 , 并通过数值试验证明我们提出的路径策略 的有效性 。关键词 : 货物流配给 ; 物料装运系统 ; 马尔科夫决策过程 ; 货站运作中图分类号 : N945文献标识码 : A文章编号 : 100426062 (2009) 04201422060引言当今社会 ,先进的自动化仓库及配送中心在全球供应链 中起着越来越重要的作用 ,例如 ,现代仓库和配送中心为了 节省劳动力 ,大量使用自动仓储系统 (ASRSs) 来利用高处空 间及加快货物的转移 。综合自动化装运处理系统 ( IASHSs) 由多个 ASRSs 及各种各样的处理站组成 ,
3、并与物料处理设备 组成的复杂网络连接 。本论文中 ,我们讨论从一个大型空运货站 香港空运 货站 ( HACTL) 的工程项目里得到的一个设施物流网络问题 , 该问题讨论具有不同权重的多个货物流如何在起讫点之间 运输 。已 有 很 多 文 献 对 货 运 站 及 设 施 物 流 进 行 研 究 。 Stahlbock1 , Gunther 和 Kim2 及 Hartmann3 已经对这一领域进 行了很好的研究 ,韩晓龙 4 建立龙门吊的数量配置网络流模 型 。对 ASRS 路径问题的早期研究主要关注某个特殊设备的 作业规则 , Graves 等人 5 表明一个较好的路径会使得取货时 间降低达 3
4、0 %之多 ,Van de Berg 和 Gademanna6 研究了如何 在使 SR 机器完成所有存取要求的条件下选择路径 ,使总时 间最短 。还有许多文献研究了弹性制造系统 ( FMSs) 的路径策略 。 Yao 和 Pei 7 根据熵标准研究 FMSs 路径的动态部分 ,他们给 出了两种作业规则 ,并将其与“处理时间最短”( SPT) 规则进 行比较 。包括 Seidmann 和 Tenenbaum8 在内的很多学者研究 动态部分的配给策略 ,并给出使处理能力最大的最优策略 。研究表明 ,在移动电话系统中动态路径策略很有效 (Boucher多 ,典型的 IASHS 包含几百个关键设备 、
5、大量的连接设备及成千上万个储存位置 。用状态空间的方式建立此问题的模 型就不太现实 ,主要有以下两个方面的问题 : 首先是上述提 到的网络规模庞大及计划时期较长 ; 另外 ,此问题的关键设 备按先到先服务 ( FCFS) 的原则作业 ,因此很难建立简单的时 空网络模型 。对交通运输路径的路径策略的研究也很多 。在过去十 年间 ,Merchant 和 Nemhauser11 、Carey12 使用了已公式化的动 态路径模型 ,另外 , Friesz 等 13 与 Astarita14 利用路径运输延 迟建立模型 ,杜进有等15 改进了在一定运输需求条件下对路 网上双向 、空重车流路径同时进行优化
6、的多目标满意优化模 型 ,并通过建立独立满意度和综合满意度来衡量优化解的品 质 。侯立文等 16 同时考虑客户需求可分以及客户方和配送中心时间窗限制的前提下 ,重新构造了路径问题模型 。朱晨波等 17运用基于马尔可夫决策过程的分解方法 ,研究一种有车辆限制 、长期的直接配送的三层随机库存路径问题 。郭耀煌和钟小鹏 18 以顾客等待时间最小化作为系统目标 ,利用排 队理论研究了一类动态车辆路径的实时优化策略 。我们所研究的问题与交通路径问题的有以下不同点 :首 先 ,交通路径问题研究的对象是交通流 ,而我们的问题研究 的是单个货物 ,因此 ,前者的目的是一般是推导网络流平衡 点 ,设计交通网络
7、; 而我们的目的则是寻找运输所有货物的 最优方案 。第 二 , 交 通 路 径 问 题 在 进 行 路 径 决 策 时 是 分 权 的 ,因为每个车主的决策是独立的 ; 而我们研究的空运货站 路径问题 ,可以由系统进行集中决策 。总体来说 ,前者的目 的是推导出一种网络平衡或者达到最大2最小公平 ; 而本文的目的是寻找整个系统的最优路径策略 。等 9) 。由于设备数量很少 ,上述文献都是以状态空间方式研究系统作业情况 。Kliewer 等10 建立了基于时空网络的动态模型 。但 是 , IASHS 的 网 络 规 模 比 FMS 的 网 络 规 模 大 的收稿日期 : 2009203215 修
8、回日期 : 2009208223基金项目 : 国家自然科学基金项目 (70801053)作者简介 : 徐东升 ,男 ,1979 ,汉 ,浙江人 ,中山大学管理学院 ,讲师 。研究方向 ,供应链和物流管理 。1问题描述在介绍 我 们 的 模 型 与 方 法 之 前 , 有 必 要 先 解 释 一 下 IASHS 的组成部分及其运行过程 。一个 IASHS 系统通常由几 个 ASRS 系统及大量工作站组成 ,并且他们通过物料搬运设 备组成的网络连接起来 。单个 ASRS 用自动存储取出设备 在 ASRS 系统的进库出库台 ( SEPs) 与存储货架之间运输货 物 ,其中 ,物料搬运设备根据其功能可
9、分为两类 。第一类是 关键设备 ,这些设备通常很昂贵 ,并且有多个输入通道获得 货物 ,多个出口通道运出货物 , 如台架运货机 ( 与自动存储 取出设备相似) 即能水平运动又能垂直运动 ,其中 ,自动运货 车水平运动 ,升降台垂直运动 ,转车台能水平的改变运送货 物的方向 。另一类是连接设备 ,他们起到连接关键设备与系 统 SEPs 的作用 ,如运输设备 、动力滚轴 、货物缓冲设备 ( 等待 关键设备处理) 。由于 IASHS 的 结 构 网 络 复 杂 , 其 中 的 动 作 也 比 单 个 ASRS 复杂 的 多 。IASHS 包 含 三 种 形 式 的 动 作 : 从 SEPs 到 AS
10、RS 货架的存储货物动作 、从 ASRS 到 SEPs 的取出货物动 作 、不同 ASRS 之间的转运货物及从处理站到 ASRS 的转运货 物动作 。整个流程为 : 当一个航空集装箱 ULD ( 空运货站业 务的集装箱 ,接下来我们将此作为货运需求单位) 到达一个 大规模航空站时 ,首先储存在 ASRS 货架 ,接着可能被取出到 处理站进行某些特殊操作 。如被拆散成多个散包装 。接着 , 这些 ULDs (以批量箱的形式) 被转移到顾客清关中心 ,然后 运送到另一个 ASRS 进行批量储存 。最后 ,从 SEPs 取出 。HACTL 拥有超级一号货站 ,就货量而言 ,它是全球最大 的空运货站
11、,图 1 是它的简图 。从图 1 可以看出 , 网络结构 很复杂 。这个货站拥有 350 多个工作站及 3500 多个存储机 架 。在 SEPs 与存储机架之间有成千上万个连接设备来进行 物料的自动搬运 。自动物料搬运设备分布在一个大楼里 ,这 个大楼分为货运大楼及分布在货运大楼东西两端的两个货 箱贮存系统 ,这两个货箱贮存系统通过 72 个高架桥与货运 大楼相连 。第一层是由动力滚轴组成的主要线路类型轨道 (下文就称此为主线路) ,这些线路不仅将普通货物储藏区与 冷藏货物储藏区分开 ,还在两个储藏区之间架起了可通行的 桥梁 。因此 ,建立这个系统的路径策略非常具有挑战性 ,设备 尤其是关键设
12、备的选择非常困难 。为了说明这一点 ,一对起 讫点 (OD ,起点或者讫点可以是 SEP 或者存储机架) 之间至少 要包含 4 个升降机 、2 个自动运货车 、两个台架运货机及大量 的连接设备 。在 5 层高的大楼里 ,一个 OD 对有 1540 个实 际可行路径 。例如 ,最简单的路径可能是由升降台到 2 楼 , 通过主路径 ,再通过台架运货机到 4 楼的存储货架 。同样 , 还可以从 一 楼 的 工 作 站 出 发 。由 升 降 机 到 3 楼 , 通 过 高 架 桥 ,接着采用自动运货车 ,然后通过台架运货机到 4 楼的存 储货架 。目前 HACTL 的做法很简单 。HACTL 的路径策
13、略基于路 径列表 ,列表中 ,每个 OD 对之间都由很多被赋予不同分值的路径 。根据 OD 的位置以及网络布局 ,路径列表中可以有 540 个路径 。当一单位货物要在一个 OD 对之间运输时 ,采用路径列表中分值最低的路径 ,当选择的路径中有设备在进 行维护时就选择备用路径 ,这样 ,大概 90 %的货物采用分值 最低的路径 (也可看作最短路径) 。在忙时 ,由于很多路径都要用到关键设备 ,系统采用上述路径策略时 ,经常出现严重阻塞 。数据表明 ,实际上货物 的存储与取出要花费 3 个多小时 ,显然远远达不到理想的绩 效要求 。并且 ,当前采用的路径策略不能根据需求优先要求 处理具有不同优先权
14、的货物 。例如 ,在一个空运货站中 ,必 须赋予需要速递的货物较高的优先权 ,由于出口货物什么时 候运出取决于飞机起飞时间 ,因此出口 ULDs 比进口 ULDs 更 紧急 。由于当前路径策略的这些局限性 ,为了优化系统性能 , 在第 2 节中我们将给出货物流配给原则 ,然后建立相应的数 学模型进行分析 。第 3 节我们进行了大量的模拟实验并提 供数值结果 ,实验结果表明货物流配给策略比当前的策略优越很多 。第 4 节给出我们的结论 。2货物流配给原则及数学模型本节我们将给出货物配给原则的概念 。货物配给原则 将路径分为 若 干 不 同 的 集 合 , 每 个 集 合 对 应 一 种 货 物
15、流 类 型 。为了避免路径空闲或者利用率较低 ,某些特殊的路径集 合允许权重较低的需求通过 。我们考虑普通需求和紧急需 求这两种货物流类型的情况 。假设每个 OD 对之间都有两种 路径集合 :分别为普通需求和紧急需求类型设定的普通路径 和速递路径 。所有的紧急需求必须在速递路径上运输 ,但是 普通需求即可以在速递路径也可以在普通路径运输 ,这取决 于速递路径的利用情况 。通常情况下 ,普通路径的数量都多 于速递路径 ,本文中我们先研究单一速递路径问题 ,即每对 OD 之间仅存在一条速递路径的配给问题 。是否允许普通 ULD 在速递路径上运输取决于当前路径 的利用 情 况 及 接 下 来 可 能
16、 到 达 的 潜 在 紧 急 ULDs 。本 文 用 “饱和度”表示路径的利用情况 。饱和度指路径能同时运输 的 ULDs 数量 。要特别强调的是 : 饱和度的一个重要性质就 是可恢复性 ,即当一条路径上的货物运输完成时这条路径的 饱和度可以恢复 。因此 ,系统运行的不同时刻路径的饱和度 是不断变化的 。通过权衡 (1) 为潜在紧急 ULDs 预留饱和度还是 (2) 为避 免紧急 ULDs 比预测过少而带来的饱和度浪费 ,决定是否允 许普通 ULD 使用速递路径 。本文中我们用马尔可夫决策决 策过程 (MDP) 模型来处理这一过程 。在给出模型之前 ,先定 义以下符号 。符号S :路径饱和度
17、。t :时期指标 , t = 1 ,2 , , T 。A t: t 时期的可用饱和度 。Rt : t 时期通过速递路径配送普通需求货物的收益 。Wt : t 时期的到达的普通货物总量 。图 1 超级一号货站的简图 ( t , A ) :状态变量 。V ( t , A ) : t 时期的最优价值函数 。N ( x) :在前一期的使用的饱和度为 x 时 ,本期可以恢复 的饱和度 。不失一般性 ,在下面的讨论中 ,为了表达方便 ,符号的下标 t 都省略 。在这个模型中 ,恢复函数 N ( x ) 表示系统中运 出 x 的 ULD 以后可以恢复的饱和度 , A + N ( S - A) 表示若前一期的
18、可用饱和度为 A 时 ,本期的可用饱和度为 A + N ( S - Source : http :203118911661163hactlenaboutST1 brochure . pdfA) 。根据航空站的网络特征 ,我们假设 A + N ( S - A ) 满足 :1) 是关于 A 的非减函数 ; 2) 是关于 A 的凸函数 ; 3) 且 A + N ( S - A) S 。下面简单解释一下这三个性质 ,性质 1 表明网 络中 ULDs 越多从网络中运出的 ULDs 也就越多 ;性质 2 反映 了可用饱和度越大 ,网络中的阻塞就越少 ,这反过来增加了 饱和度的恢复速度 ;性质 3 表明了任
19、一时期的可用饱和的都 不能超过总饱和度 。实际经验表明 ,饱和度恢复函数可以使前速递路径的饱和度等 ,用定理 1 决定是否用速递路径来运输 。MDP 模型及 货 物 流 配 给 原 则 的 运 用 很 复 杂 。在 运 用 MDP 模型及货物流配给原则时 ,应该考虑大量问题 ,包括 :1) 如何确定饱和度 ;2) 如何划分时期 ;3) 如何选择恢复函数 ; 4) 如何将 ULD 需求转化成离散的随机变量 。以上问题我们将在下面数值试验具体实施过程中介绍 。用线性函数 , 例 如 N ( x ) = x3 , 从 而 A + N ( S -2 A ) 3 。根据以上约定的符号 ,最优方程可表示为
20、 :A ) = ( S +3 数值实验为了评价我们定义的路径策略的有效性 ,我们设计了 一个仿真体统 ,该仿真系统具有实际空运货站的主要特征 。 该仿真实验是在一台 CPU 双核 210 GHz ,内存 1024M 的个人 电脑上进行的 。货物流分为两类 :普通类和紧急类 。311 数据生成与参数设定我们选两个不同的最短路径策略作为基准 ,一个是分类 独立的最短路径 ( SPI) 策略 , 另一个是分类依赖的最短路径 ( SPD) 策略 。其中 SPI 这样决策 ,给定一个 ULD ,不论其类型 , 根据其 OD 确定一条最短路径运输这个 ULD 。SPD 则是对每 个 OD ,确定 一 组
21、路 径 , 每 条 路 径 对 应 一 个 权 重 类 型 。给 定 ULD 并确定其权重类型后 ,就找到相应路径来进行运输 。现在我们来构造货物流配给 ( FR) 路径策略 ,首先用 SPI 策略的最短路径作为速递路径 ,另外有三个路径作为普通路 径 。假 设 用 SPI 可 以 完 成 90 % 的 ULDs , 并 记 录 模 拟 时 间 (32400 秒) 内每个 OD 对能完成的 ULDs 的运输量 。连续进行100 次 ,记录 其 平 均 值 , 并 将 其 作 为 速 递 路 径 的 饱 和 度 。另 外 ,我们选定每个时期的时间长度为 1 小时 ,因此 ,整个模拟 时间就可以分
22、为 9 个时期 ,即 T = 9 ,恢复函数设为 N ( x ) = x ,其中参数 根据一个时期内对 应 路 径 能 完 成 的 ULDs 的运输量的平均值来确定 。另外 ,我们注意到 ULD 的到达规律服从泊松过程 ,下一时期的 ULD 量服从泊松分布 。鉴于阻V ( t , A) = EW , R max V ( t + 1 , A -V ( t + 1 , A + N ( S - A ) ) 且边界条件为 :W + N ( S -A) ) + R ,V ( T + 1 , A)= 0.下面的 引 理 和 定 理 指 出 了 MDP 模 型 的 最 优 函 数 的 性质 。引理 1给定
23、t 时 , V ( t , A) 是 A 的非减函数 。证明 :用数学归纳法来证明 。显然 V ( T + 1 , A ) 是 A 的 非减函数 ,假设 V ( t + 1 , A ) 是 A 的非减函数 ,其中 t = T , T -1 , ,1 ,我们需要证明 V ( t , A ) 是非减的 。由于 A + N ( S -A ) 是非减的 ,所以对任意给定 R 和 W , V ( t + 1 , A - W + N ( S- A) ) + R 与 V ( t + 1 , A + N ( S - A ) ) 都 是 非 减 函 数 , 因 此 max V ( t + 1 , A - W +
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 马尔科夫 决策 过程 货物 配给 策略
链接地址:https://www.31ppt.com/p-4013127.html