实体 MiniGrid

MiniGrid

PulseAugur coverage of MiniGrid — every cluster mentioning MiniGrid across labs, papers, and developer communities, ranked by signal.

总计 · 30天

5

90 天内 8

发布 · 30天

0

90 天内 0

论文 · 30天

5

90 天内 8

层级分布 · 90 天

主题

情绪 · 30 天

4 天有情绪数据

最近 · 第 1/1 页 · 共 8 条

TOOL · CL_141325 · Jul 14 · 04:00

TopoExplore 通过拓扑感知选择增强 AI 探索能力

研究人员开发了 TopoExplore，一种新颖的 AI 探索方法，可增强 Go-Explore 等现有技术。TopoExplore 包含一个拓扑学过程，用于识别和优先进入未探索区域，特别针对封闭区域的入口，同时避开封闭的空洞。该方法在跨越各种环境到达新状态方面表现出显著的加速，优于标准方法，尤其是在具有复杂结构或诱饵区域的场景中。
TOOL · CL_123108 · Jul 3 · 04:00

新的MAGIK框架支持RL智能体进行零样本知识迁移

研究人员开发了MAGIK，一个旨在增强强化学习（RL）智能体知识迁移能力的新框架。该系统使RL智能体能够在不直接与目标环境交互的情况下，将其从先前学习的任务中获得的知识应用于新的、类似的任务。MAGIK利用想象机制在任务之间映射实体，从而实现现有策略的重用。在MiniGrid和MuJoCo环境中进行的实验表明，MAGIK能够以最少的人工标注示例有效地实现零样本迁移，并且优于相关的基线方法。
TOOL · CL_117487 · Jun 30 · 04:00

New framework measures coordination gap in cooperative MARL systems

研究人员开发了一个新框架，用于衡量合作多智能体强化学习（MARL）系统中的协调结构。该框架分析了理论角色分配与去中心化智能体实际学到的约定之间的差距。该研究利用了 MiniGrid 和 SMACv2 等环境，采用标签条件注意力来实现更具角色特异性的路由，这种路由在不同团队规模下保持稳定，并且对盟友槽填充具有不变性。
TOOL · CL_125154 · Jun 28 · 18:08

多智能体强化学习研究量化了理论与学习到的智能体角色之间的协调差距

一篇新研究论文探讨了合作式多智能体强化学习（MARL）系统中的协调机制。该研究调查了理论角色分配与智能体实际学到的协调约定之间的差距。研究结合了角色路由矩阵和注意力机制等方法，证明了与简单的基线模型相比，标签条件注意力能够实现更聚焦、更具角色特异性的路由。这种方法在不同团队规模下表现出稳定性，并且可以零样本迁移到新的团队配置，为分析MARL协调结构提供了一个框架。
RESEARCH · CL_62832 · Jun 1 · 04:00

通过逆向动力学预测改进用于世界建模的VLM

研究人员正在探索改进视觉语言模型（VLM）在世界建模方面的预测能力的方法。一个关键挑战是VLM在正向动力学预测（根据动作生成未来状态）方面存在困难，但在逆向动力学预测（描述状态之间的动作）方面更擅长。这种不对称性正被用于通过弱监督学习（来自标注数据）和推理时验证等技术来增强VLM的性能。这些方法旨在为具身AI应用创建更强大、更准确的世界模型，其中一些方法在图像编辑和策略评估方面显示出与最先进模型相媲美的结果。
TOOL · CL_41868 · May 20 · 08:15

新的CIG奖励方法增强了强化学习的探索能力

研究人员推出了一种新颖的强化学习奖励机制——条件信息增益（CIG），旨在改进探索策略。CIG通过提供轨迹级别信息增益的可行替代方案，解决了现有方法的局限性，使其能够扩展到高维状态空间。在离散和连续控制环境的十二项任务中进行了测试，CIG在存在随机干扰因素的情况下，与之前的探索技术相比，表现出具有竞争力或更优越的性能。
TOOL · CL_21943 · May 8 · 04:00

新的梯度-动量耦合指标增强了强化学习进展的测量

研究人员引入了梯度-动量耦合（GMC），一种用于测量强化学习中学习进展的新颖方法。GMC通过分析样本梯度与过去梯度动量的相互作用来量化样本梯度对持续学习的效用。与预测误差等传统信号不同，这种方法旨在更好地将有意义的模式与噪声区分开来。实验表明，GMC增强了对噪声的鲁棒性，并且可以通过根据学习速度对任务进行优先级排序来促进新兴课程学习。
TOOL · CL_16042 · May 5 · 04:00

PACE 方法通过评估参数变更来提高强化学习的泛化能力

研究人员推出了一种新颖的无监督环境设计（UED）方法 PACE，旨在增强强化学习的泛化能力。PACE 通过评估训练过程中诱导的策略参数变更来直接衡量环境的价值，比现有的代理信号更能准确地反映学习进展。该方法利用策略优化目标的泰勒一阶近似，根据参数更新的平方 L2 范数来评估环境，从而无需额外的计算步骤即可进行高效且低方差的评估。在 MiniGrid 和 Craftax 上的实验表明，PACE 的性能优于当前的 UED 基线，在分布外评…