目录1.摘要2.问题描述与数学建模3.QLNS算法4.结果展示5.参考文献6.算法辅导·应用定制·读者交流1.摘要针对异构无人机机队在应急医疗服务中的任务分配与取送货路径规划问题考虑供应短缺、时间窗及地理限制等挑战本文构建了以最大化总利润为目标的混合整数线性规划模型。针对大规模问题提出一种增强Q学习自适应大邻域搜索算法QALNS。2.问题描述与数学建模面向应急医疗的异构无人机任务分配与取送货路径规划HUTA-PDP构建最大化总利润MILP模型在三阶段前置运营、任务分配、航路规划框架下考虑了资源短缺、时间窗、无人机载重、航程及高度等多重约束并允许部分次要需求不被服务。max ⁡ ∑ k ∈ K ∑ ∑ r ∈ R p j r d j r y j r k \max\sum_{k\in K}\sum\sum_{r\in R}p_{jr}d_{jr}y_{jr}^kmaxk∈K∑​∑r∈R∑​pjr​djr​yjrk​3.QLNS算法初始化通过四个步骤生成初始可行解1.基于组合与容量约束随机生成任务序列2.生成顶点序列并合并同顶点任务以消除子回路3.更新库存与可用任务集4.结合地理和飞行参数计算到达时间。破坏-修复算子针对HUTA-PDP设计了三对基于任务序列的破坏与修复算子通过更新任务链并同步重构顶点和时间序列来迭代优化解。破坏算子随机破坏(RD)随机移除多个任务并回补库存I n v r e m a i n I_{nvremain}Invremain​与剩余任务集T a s k r e m a i n T_{askremain}Taskremain​基于群组破坏(GD)以客户点为单位直接清空无人机k kk访问的某群组下的所有任务最差利润破坏(WPD)则按利润由低到高依次剔除低效益任务。修复算子随机修复(RR)在满足载荷与库存I n v r e m a i n I_{nvremain}Invremain​约束下随机从T a s k r e m a i n T_{askremain}Taskremain​抽取任务插入基于群组修复(GR)优先向无人机k kk已有的访问群组中追加该群组的其他未完成任务最佳利润修复(BPR)将T a s k r e m a i n T_{askremain}Taskremain​按利润降序排列优先插入高利润任务并通过重排使同群组任务相邻以防止重复访问。Q-learning机制双重Q-learning机制动态调整算子选择和操作率**算子选择QL1**状态State由改进、多样性和差值三类指标组合离散化为30个状态动作Action为3对破坏与修复算子交叉组合的9种操作。奖励函数根据新解质量调整R Q L 1 { 8 if O b j ( ς ′ ) O b j ( ς ∗ ) 5 if O b j ( ς ′ ) O b j ( ς ∗ ) 3 if O b j ( ς ) O b j ( ς ′ ) O b j ( ς ∗ ) 1 if ς ′ is accepted 0 if ς ′ is not accepted R_{QL1} \begin{cases} 8 \text{if } Obj(\varsigma) Obj(\varsigma^*) \\ 5 \text{if } Obj(\varsigma) Obj(\varsigma^*) \\ 3 \text{if } Obj(\varsigma) Obj(\varsigma) Obj(\varsigma^*) \\ 1 \text{if } \varsigma \text{ is accepted} \\ 0 \text{if } \varsigma \text{ is not accepted} \end{cases}RQL1​⎩⎨⎧​85310​ifObj(ς′)Obj(ς∗)ifObj(ς′)Obj(ς∗)ifObj(ς)Obj(ς′)Obj(ς∗)ifς′is acceptedifς′is not accepted​**操作率确定QL2**状态由目标值改进与计算速度共同定义动作为6个操作率区间奖励函数考量质量提升与耗时缩短R Q L 2 { 8 if O b j ( ς ′ ) O b j ( ς ∗ ) and P ( I t e r ′ ) P ( I t e r ) 5 if O b j ( ς ′ ) O b j ( ς ∗ ) and P ( I t e r ′ ) ≥ P ( I t e r ) 3 if O b j ( s ) O b j ( ς ′ ) ≤ O b j ( ς ∗ ) and P ( I t e r ′ ) P ( I t e r ) 1 if O b j ( s ) O b j ( ς ′ ) ≤ O b j ( ς ∗ ) and P ( I t e r ′ ) ≥ P ( I t e r ) 0 otherwise R_{QL2} \begin{cases} 8 \text{if } Obj(\varsigma) Obj(\varsigma^*) \text{ and } P(Iter) P(Iter) \\ 5 \text{if } Obj(\varsigma) Obj(\varsigma^*) \text{ and } P(Iter) \geq P(Iter) \\ 3 \text{if } Obj(s) Obj(\varsigma) \leq Obj(\varsigma^*) \text{ and } P(Iter) P(Iter) \\ 1 \text{if } Obj(s) Obj(\varsigma) \leq Obj(\varsigma^*) \text{ and } P(Iter) \geq P(Iter) \\ 0 \text{otherwise} \end{cases}RQL2​⎩⎨⎧​85310​ifObj(ς′)Obj(ς∗)andP(Iter′)P(Iter)ifObj(ς′)Obj(ς∗)andP(Iter′)≥P(Iter)ifObj(s)Obj(ς′)≤Obj(ς∗)andP(Iter′)P(Iter)ifObj(s)Obj(ς′)≤Obj(ς∗)andP(Iter′)≥P(Iter)otherwise​4.结果展示PDPTW基准测试QALNS在多数算例中达到已知最佳解并在200-800任务的大规模算例中刷新记录400任务算例平均提升6.50%双重Q学习机制未削弱计算时效。敏感性分析学习率α 0.3 \alpha0.3α0.3时算法最稳定目标值平均提升1.75%折扣因子γ 0.9 \gamma0.9γ0.9时全局寻优与时效最佳目标值提升1.37%CPU时间对两参数更敏感。5.参考文献Lin Z, Xu X, Demir E, et al. Optimizing task assignment and routing operations with a heterogeneous fleet of unmanned aerial vehicles for emergency healthcare services[J]. Computers operations research, 2025, 174: 106890.6.算法辅导·应用定制·读者交流xx