研究人员开发了一种新颖的半马尔可夫强化学习方法,用于管理大规模电动汽车叫车车队。该方法确保调度、重新定位和充电决策严格遵守充电器和馈线限制等物理约束,即使在需求和出行时间不确定的情况下也是如此。该系统利用掩码执行器产生高级意图,然后通过混合整数线性规划进行投影以保证可行性。在纽约市出租车数据集模拟器上的实验表明,名为 PD--RSAC 的方法显著优于基线方法,净利润达到 122 万美元,同时避免了任何馈线限制违规。 AI
影响 引入了一个强大的强化学习框架,用于复杂的车队管理,有可能提高物流运营效率和盈利能力。
排序理由 学术论文,详细介绍了一种用于特定应用的新型强化学习方法。
- Graph Convolutional Network
- MADDPG
- MAPPO
- NYC
- PD--RSAC
- Semi-Markov Reinforcement Learning
- Soft Actor--Critic
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →