实体 tabular Q-learning

tabular Q-learning

PulseAugur coverage of tabular Q-learning — every cluster mentioning tabular Q-learning across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_97852 · Jun 17 · 08:27

研究人员提出强化学习基础模型

一篇新研究论文提出开发专门用于强化学习（RL）的基础模型，认为与语言和视觉领域相比，该领域目前存在一个明显的空白。作者认为，马尔可夫决策过程（MDP）非常适合基于注意力（attention-based）的架构，类似于在表格基础模型中使用的架构。作为演示，他们在一个合成MDP上训练了一个模型，该模型成功地以最小的调整解决了未见过的表格基准测试，在在线设置中优于UCB-VI和表格Q学习等传统方法，并在离线场景中与VI-LCB竞争。

研究人员提出强化学习基础模型