English(EN) Value Functions for Temporal Logic: Optimal Policies and Safety Filters

AI 研究人员为时序逻辑策略开发新的值函数

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-05 04:00

研究人员开发了一种新的方法，用于在强化学习中构建时序逻辑规范的最优策略。该方法通过分解值函数并创建考虑状态历史的非马尔可夫策略，在现有工作的基础上进行了扩展。Q 函数也被用作复杂时序逻辑任务的安全过滤器，将先前能力扩展到基本的到达和避免场景之外。 AI

影响为复杂时序逻辑任务中的强化学习策略优化和安全过滤引入了一种新颖的方法。

排序理由这是一篇发表在 arXiv 上的研究论文，详细介绍了强化学习方面的新理论进展。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Oswin So, William Sharpless, Sylvia Herbert, Chuchu Fan · 2026-05-05 04:00

Value Functions for Temporal Logic: Optimal Policies and Safety Filters

arXiv:2605.01051v1 Announce Type: cross Abstract: While Bellman equations for basic reach, avoid, and reach-avoid problems are well studied, the relationship between value optimality and policy optimality becomes subtle in the undiscounted infinite-horizon setting, particularly f…