实体 Meta-World Physics

Meta-World Physics

PulseAugur coverage of Meta-World Physics — every cluster mentioning Meta-World Physics across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 5

发布 · 30天

90 天内 0

论文 · 30天

90 天内 5

层级分布 · 90 天

主题

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 5 条

RESEARCH · CL_107746 · Jun 23 · 15:03

LaGO 框架使用 LLM 改进在线强化学习 · 跟踪 2 个来源

研究人员开发了 LaGO，一个利用大型语言模型 (LLM) 作为在线强化学习的潜在动作先验的框架。LaGO 不将 LLM 用作直接控制器，而是软性地指导策略优化。在 CLEVR-Robot 和 Meta-World 基准上的实验表明，与 Vanilla PPO 相比，LaGO 在 CLEVR-Robot 上的成功率从 15.1% 提高到 27.2%，在 Meta-World 上的成功率从 2.7% 提高到 15.2%。研究还表明，更强…
RESEARCH · CL_106805 · Jun 17 · 00:00

新研究增强了用于机器人和视觉推理的VLA模型

近期研究探索了增强用于机器人操作和通用视觉推理的视觉-语言-动作（VLA）模型。研究通过域随机化和照片级真实感渲染来研究模拟到现实的泛化能力，并提出诸如 Faithful Warm-Start 等方法，通过在强化学习前确保视觉保真度来提高VLM推理的稳定性。其他工作引入了置信度驱动的测试时强化学习，无需外部奖励即可实现自我改进，以及状态感知分词器，以更好地从离散代码中解码动作。此外，研究还检查了VLA模型中的架构冗余，发现语言骨干对于…
RESEARCH · CL_56916 · May 28 · 08:50

机器人通过新的KAN-We-Flow和EFM策略提高效率

研究人员开发了KAN-We-Flow，一种新颖的机器人操作策略，利用RWKV和KAN显著减小模型尺寸和推理延迟，同时保持或提高成功率。该方法在Adroit和Meta-World等基准测试中取得了最先进的性能，参数减少了86.8%，并具备实时控制能力。此外，引入了一个名为EFM-10的新基准，通过专注于探索性和专注性操作策略来解决人形双臂操作中的挑战，特别是视觉遮挡问题。该基准以及BAPData数据集和BAP策略旨在使机器人能够主动获取…
TOOL · CL_44719 · May 22 · 04:00

TimeRewarder 从被动视频中学习密集奖励，用于强化学习

研究人员开发了 TimeRewarder，一种从被动视频中学习密集奖励信号的新颖方法。该技术通过对帧对之间的时间距离进行建模来估计任务进度，然后可以指导强化学习代理。在十个 Meta-World 任务上的实验表明，TimeRewarder 显著提高了成功率和样本效率，优于手动设计的奖励和以前的方法。该方法还展示了利用真实世界的人类视频进行可扩展奖励信号生成的潜力。
RESEARCH · CL_41771 · May 20 · 07:45

机器人策略生成方法DISC将语言与控制解耦

研究人员开发了一种名为DISC（Decoupling Instruction from State-Conditioned Control）的新方法，以改进机器人中的语言条件操作策略。DISC在结构上将指令处理与状态条件控制分开，防止策略学习绕过语言基础的捷径。它通过使用超网络直接从指令生成特定任务的视觉运动策略来实现这一点，确保任务意识仅来自语言。

LaGO 框架使用 LLM 改进在线强化学习 · 跟踪 2 个来源

新研究增强了用于机器人和视觉推理的VLA模型

机器人通过新的KAN-We-Flow和EFM策略提高效率

TimeRewarder 从被动视频中学习密集奖励，用于强化学习

机器人策略生成方法DISC将语言与控制解耦