PulseAugur
实时 10:24:27
实体 tabular Q-learning

tabular Q-learning

PulseAugur coverage of tabular Q-learning — every cluster mentioning tabular Q-learning across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_97852 ·

    研究人员提出强化学习基础模型

    一篇新研究论文提出开发专门用于强化学习(RL)的基础模型,认为与语言和视觉领域相比,该领域目前存在一个明显的空白。作者认为,马尔可夫决策过程(MDP)非常适合基于注意力(attention-based)的架构,类似于在表格基础模型中使用的架构。作为演示,他们在一个合成MDP上训练了一个模型,该模型成功地以最小的调整解决了未见过的表格基准测试,在在线设置中优于UCB-VI和表格Q学习等传统方法,并在离线场景中与VI-LCB竞争。