实体 OGBench

OGBench

PulseAugur coverage of OGBench — every cluster mentioning OGBench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

12

90 天内 12

发布 · 30天

0

90 天内 0

论文 · 30天

12

90 天内 12

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 12 条

RESEARCH · CL_128440 · Jul 6 · 15:47

MoP-JEPA 引入硬分配预测器以改进随机世界模型

研究人员引入了 MoP-JEPA，一种用于随机 JEPA 世界模型的新方法，该方法解决了在具有分支转换的环境中预测后继状态的局限性。与可能输出状态之间点的传统 JEPA 模型不同，MoP-JEPA 利用硬分配预测器创建转换分布的量化器，每个预测器头对应一个不同的后继模式。该方法在 OGBench 离线数据上显著提高了规划性能，成功率最高可达 0.85，而单预测器模型的成功率仅为 0.02-0.09。该系统还包含一个验证协议，以确保其预…
TOOL · CL_70280 · Jun 4 · 04:00

新方法使用双重优势场增强离线强化学习

研究人员推出了一种新颖的离线目标条件强化学习方法——双重优势场（DAF）。DAF通过学习一个预测状态变化的动作效应模型，将双重价值模型转化为局部优势信号。该方法根据动作与目标方向的一致性对其进行评分，从而有效地计算目标条件贝尔曼优势。在OGBench运动、操控和谜题任务上的实验表明，DAF能够提高性能，尤其是在最优动作偏离直接目标寻求的场景中。
TOOL · CL_68522 · Jun 3 · 04:00

新的拉普拉斯表示增强了强化学习规划

研究人员为决策时规划（ALPS）引入了拉普拉斯表示，这是一种专为基于模型的强化学习设计的新型分层规划算法。ALPS 利用拉普拉斯表示来捕捉多个时间尺度的状态空间距离，有效地将长时域问题分解为子目标并减少累积误差。该算法在 OGBench 基准测试的离线目标条件强化学习任务上表现出色，优于先前占主导地位的无模型方法。
TOOL · CL_66093 · Jun 2 · 04:00

新的OgBench框架在组学数据上评估GNN

研究人员推出OgBench，一个专门用于评估组学数据的图神经网络（GNN）的新框架。这类生物数据存在一个独特的挑战，即样本数量远小于节点数量，这种情况是标准GNN通常难以应对的。OgBench旨在通过提供标准化的基准测试平台和开源基础设施，促进更适合这些低样本、高节点生物图的GNN架构的开发。
RESEARCH · CL_65476 · May 31 · 15:46

新研究探讨Q学习稳定性和离线RL方法

两篇新研究论文探讨了强化学习技术的进展。一篇论文介绍了漂移Q学习（Drift Q-Learning），该方法结合了基于漂移的行为正则化器和由Critic驱动的策略改进，以提高离线强化学习任务的性能和稳定性。另一篇论文对线性Q学习中的周期性和软性目标更新进行了理论分析，证明了这些机制在特定条件下可以保证收敛。
TOOL · CL_53649 · May 27 · 04:00

新算法CARL增强分层强化学习中的技能可复用性

研究人员开发了一种名为CARL（对比动作表示用于可复用局部控制）的新算法，以提高分层强化学习（HRL）中技能的可复用性。CARL利用局部动力学的规律性，表明在不同的全局环境中，相似的动作序列对于状态转移是必需的。通过将这些环境与其所需的动作序列对齐，该算法学习在哪里以及复用哪些技能，可能使各种HRL算法受益。该方法在复杂环境中展示了定性的技能聚类，并在与HIQL集成后，在OGBench基准测试中提高了性能。
RESEARCH · CL_53549 · May 26 · 14:28

新TRQAM算法稳定离线强化学习

一篇新论文介绍了一种名为Trust Region Q-Adjoint Matching (TRQAM)的算法，该算法旨在稳定预训练流策略的离线强化学习。TRQAM通过自适应地控制路径空间KL散度，解决了先前Q-learning with Adjoint Matching (QAM)方法中固有的不稳定性与模型崩溃问题。在50个OGBench任务上的实验表明，TRQAM显著优于现有方法，在离线RL中的成功率达到68%，而基线为46%。
TOOL · CL_73906 · May 26 · 00:00

新的TRQAM算法稳定离策略强化学习

研究人员开发了信任区域Q-伴随匹配（TRQAM），这是一种旨在稳定离策略强化学习的新型算法。TRQAM通过使用投影对偶下降自适应地控制策略的KL散度来解决不稳定性问题。在50个OGBench任务上的实验表明，TRQAM表现优越，在离线RL中的成功率为68%，而基线方法的成功率为46%。
TOOL · CL_41868 · May 20 · 08:15

新的CIG奖励方法增强了强化学习的探索能力

研究人员推出了一种新颖的强化学习奖励机制——条件信息增益（CIG），旨在改进探索策略。CIG通过提供轨迹级别信息增益的可行替代方案，解决了现有方法的局限性，使其能够扩展到高维状态空间。在离散和连续控制环境的十二项任务中进行了测试，CIG在存在随机干扰因素的情况下，与之前的探索技术相比，表现出具有竞争力或更优越的性能。
TOOL · CL_29442 · May 12 · 17:12

新的流图策略加速机器人领域的生成式AI

研究人员开发了一类新的生成策略，称为流图策略，旨在加速复杂控制问题中的动作生成。这些策略学会了在生成动态中进行大跨步，与传统方法相比显著降低了推理成本。该方法，称为流图Q-引导（FMQ），优化了离线到在线强化学习的适应性，并在机器人操作和运动任务上展示了最先进的性能。
TOOL · CL_18815 · May 6 · 04:00

Refining Compositional Diffusion 改进了长时规划，减轻了模式平均问题。

研究人员开发了 Refining Compositional Diffusion (RCD)，这是一种用于改进机器人长时轨迹规划的新方法。RCD 解决了组合扩散规划中的模式平均问题，即组合短时规划可能导致全局不连贯或局部不可行的轨迹。通过使用一种无需训练的引导技术，该技术利用自重构误差和重叠一致性，RCD 将规划过程引向更可靠、更连贯的路径。在 OGBench 的复杂任务（包括运动和物体操作）上的实验表明，RCD 的性能显著优于现有方法。
RESEARCH · CL_14136 · May 1 · 01:23

Gemma 4 31B权重通过精细的可训练接口展示跨模态迁移

研究人员已经证明，来自Gemma 4 31B文本预训练模型的冻结权重可以有效地跨不同模态进行重用，包括机器人和联想回忆任务。通过采用一个精细的、可训练的接口，这些未修改的权重在机器人操作基准测试中取得了最先进的结果，并在强化学习中与Decision Transformer的性能相匹配，而可训练参数却显著减少。该研究还确定了对文本任务和跨模态应用都至关重要的特定Transformer头，这表明模型内部存在更深层次的计算重用机制。