实体 Q-function

Q-function

PulseAugur coverage of Q-function — every cluster mentioning Q-function across labs, papers, and developer communities, ranked by signal.

总计 · 30天

3

90 天内 3

发布 · 30天

0

90 天内 0

论文 · 30天

3

90 天内 3

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 3 条

TOOL · CL_93821 · Jun 16 · 04:00

新的强化学习方法使用 K 步前瞻实现更快的学习

研究人员开发了一种新颖的强化学习方法，用于非周期性、有限时间范围的马尔可夫决策过程 (MDP)。该方法引入了一种修改后的 Q 函数，将规划限制在 K 步前瞻，并包含一个阈值机制，仅当估计值超过动态阈值时才选择动作。提出了一种高效的表格学习算法，证明了快速有限样本收敛性，并实现了 K=1 时的 minimax 最优常数遗憾，以及 K>=2 时的改进遗憾界限。在合成 MDP 和 JumpRiverswim、FrozenLake 和 Any…
TOOL · CL_93813 · Jun 16 · 04:00

新的DRRL算法通过线性逼近实现有限时间收敛

研究人员开发了一种新的分布鲁棒强化学习（DRRL）算法，即使在使用线性函数逼近的情况下也能提供有限时间收敛保证。该算法解决了现有DRRL方法的局限性，这些方法通常需要表格设置或特定的结构假设。新方法结合了目标网络和对偶函数逼近方案，利用矩跟踪批评者和后缀平均来实现收敛到最优鲁棒Q函数。
TOOL · CL_16154 · May 5 · 04:00

AI 研究人员为时序逻辑策略开发新的值函数

研究人员开发了一种新的方法，用于在强化学习中构建时序逻辑规范的最优策略。该方法通过分解值函数并创建考虑状态历史的非马尔可夫策略，在现有工作的基础上进行了扩展。Q 函数也被用作复杂时序逻辑任务的安全过滤器，将先前能力扩展到基本的到达和避免场景之外。