研究人员开发了一种新的方法,用于在强化学习中构建时序逻辑规范的最优策略。该方法通过分解值函数并创建考虑状态历史的非马尔可夫策略,在现有工作的基础上进行了扩展。Q 函数也被用作复杂时序逻辑任务的安全过滤器,将先前能力扩展到基本的到达和避免场景之外。 AI
影响 为复杂时序逻辑任务中的强化学习策略优化和安全过滤引入了一种新颖的方法。
排序理由 这是一篇发表在 arXiv 上的研究论文,详细介绍了强化学习方面的新理论进展。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →