实体
Craftax
Craftax
PulseAugur coverage of Craftax — every cluster mentioning Craftax across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
最近 · 第 1/1 页 · 共 2 条
-
AI agents learn to preemptively solve future problems using multitask preplay
Researchers have introduced a novel algorithm called Multitask Preplay, which models how humans use experience from one task to preemptively learn solutions for other, related tasks. This method involves simulating acce…
-
PACE 方法通过评估参数变更来提高强化学习的泛化能力
研究人员推出了一种新颖的无监督环境设计(UED)方法 PACE,旨在增强强化学习的泛化能力。PACE 通过评估训练过程中诱导的策略参数变更来直接衡量环境的价值,比现有的代理信号更能准确地反映学习进展。该方法利用策略优化目标的泰勒一阶近似,根据参数更新的平方 L2 范数来评估环境,从而无需额外的计算步骤即可进行高效且低方差的评估。在 MiniGrid 和 Craftax 上的实验表明,PACE 的性能优于当前的 UED 基线,在分布外评…