实体
Q-function
Q-function
PulseAugur coverage of Q-function — every cluster mentioning Q-function across labs, papers, and developer communities, ranked by signal.
总计 · 30天
3
90 天内 3
发布 · 30天
0
90 天内 0
论文 · 30天
3
90 天内 3
层级分布 · 90 天
主题
情绪 · 30 天
1 天有情绪数据
最近 · 第 1/1 页 · 共 3 条
-
新的强化学习方法使用 K 步前瞻实现更快的学习
研究人员开发了一种新颖的强化学习方法,用于非周期性、有限时间范围的马尔可夫决策过程 (MDP)。该方法引入了一种修改后的 Q 函数,将规划限制在 K 步前瞻,并包含一个阈值机制,仅当估计值超过动态阈值时才选择动作。提出了一种高效的表格学习算法,证明了快速有限样本收敛性,并实现了 K=1 时的 minimax 最优常数遗憾,以及 K>=2 时的改进遗憾界限。在合成 MDP 和 JumpRiverswim、FrozenLake 和 Any…
-
新的DRRL算法通过线性逼近实现有限时间收敛
研究人员开发了一种新的分布鲁棒强化学习(DRRL)算法,即使在使用线性函数逼近的情况下也能提供有限时间收敛保证。该算法解决了现有DRRL方法的局限性,这些方法通常需要表格设置或特定的结构假设。新方法结合了目标网络和对偶函数逼近方案,利用矩跟踪批评者和后缀平均来实现收敛到最优鲁棒Q函数。
-
AI 研究人员为时序逻辑策略开发新的值函数
研究人员开发了一种新的方法,用于在强化学习中构建时序逻辑规范的最优策略。该方法通过分解值函数并创建考虑状态历史的非马尔可夫策略,在现有工作的基础上进行了扩展。Q 函数也被用作复杂时序逻辑任务的安全过滤器,将先前能力扩展到基本的到达和避免场景之外。