实体 Bellman optimality

Bellman optimality

PulseAugur coverage of Bellman optimality — every cluster mentioning Bellman optimality across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 2

发布 · 30天

90 天内 0

论文 · 30天

90 天内 2

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 2 条

RESEARCH · CL_93397 · Jun 15 · 15:23

新理论推进连续随机控制中的Q学习

研究人员在arXiv上发表了一篇论文，详细介绍了Q学习（强化学习中的一个基本算法）的理论进展。该研究侧重于连续状态和动作空间中Q学习的数学基础，特别是分析了贝尔曼最优性目标。该论文提出了一种专门针对问题混合正则性属性的DeepONet架构，并推导了近似界限，强调了随着时间步长接近零时，刚度和复杂性之间的权衡。
TOOL · CL_65340 · Jun 2 · 04:00

AI研究将最优控制与期望理论行为联系起来

一篇新研究论文探讨了在马尔可夫决策过程（MDPs）中，最优控制如何能在没有明确的效用曲率或概率加权的情况下，内在地导致类似期望理论的行为。该研究发现，吸收性灾难状态的存在会导致智能体在增长情景下接近失败时表现出风险规避行为，而在衰退情景下表现出风险寻求行为。研究人员推导出了一个损失厌恶的封闭形式表达式，该表达式取决于获胜概率、收益不对称性和折扣因子，证明了吸收性失败状态是这些观察到行为的充分机制。

新理论推进连续随机控制中的Q学习

AI研究将最优控制与期望理论行为联系起来