实体 CartPole-v1

CartPole-v1

PulseAugur coverage of CartPole-v1 — every cluster mentioning CartPole-v1 across labs, papers, and developer communities, ranked by signal.

总计 · 30天

2

90 天内 3

发布 · 30天

0

90 天内 0

论文 · 30天

2

90 天内 3

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 3 条

TOOL · CL_135452 · Jun 22 · 09:59

质量守恒促进神经自动机水库中的自组织临界性

研究人员探索了使用质量守恒作为归纳偏置，以促进神经元元胞自动机（NCA）水库中的自组织临界性（SOC）。这种方法涉及一种保持总晶格质量的局部重新分布规则，与标准NCA相比，该方法被发现始终表现出更强的临界性。质量守恒NCA在演化速度上更快，并在顺序记忆、数字分类和时间控制等下游任务上取得了可比的性能，这表明质量守恒是增强临界性而不损害效用的有效机制。
TOOL · CL_105040 · Jun 22 · 09:59

质量守恒提升了AI水库的临界性，而性能未受损

研究人员探索了质量守恒作为归纳偏置的概念，以促进神经细胞自动机（NCA）水库中的自组织临界性（SOC）。他们的发现表明，质量守恒的NCA始终表现出更强的临界性，在雪崩分布方面实现了更好的幂律拟合，并且演化速度提高了1.27倍。至关重要的是，这种增强的临界性不会阻碍下游任务的性能，例如顺序记忆、数字分类和时间控制，质量守恒和标准NCA取得了可比的结果。该研究表明，SOC的质量与顺序计算之间存在正相关，这由具有完美临界性的水库所实现的最高…
TOOL · CL_50927 · May 26 · 04:00

通过丢弃冗余状态转移来稳定PPO训练

研究人员开发了一种通过从同策略（on-policy）的rollout中随机丢弃一部分转移来提高强化学习训练稳定性的方法。该技术应用于Proximal Policy Optimization (PPO)，打破了由因果链式状态引起的重复梯度结构。通过丢弃约25%的转移，该方法在保持奖励性能的同时，在各种指标上产生了更一致的训练动态。