实体 OpenAI Gym

OpenAI Gym

PulseAugur coverage of OpenAI Gym — every cluster mentioning OpenAI Gym across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 3

发布 · 30天

90 天内 0

论文 · 30天

90 天内 3

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 3 条

RESEARCH · CL_48816 · May 25 · 04:00

大型语言模型探索偏好对齐和失败缓解技术

研究人员正在探索新的方法，以使大型语言模型（LLM）与人类偏好保持一致并缓解特定的失败模式。一种方法使用直接偏好优化（DPO）来利用模型自身的失败作为训练信号，从而减少OCR模型中的文本退化。其他研究侧重于理解和控制LLM的时间偏好推理，为个人代理开发轻量级的本地偏好工具包，以及创建以人为中心的偏好驱动判断框架。诸如“思想包含”（Inclusion-of-Thoughts）和“批判驱动推理对齐”（Critique-Driven Rea…
TOOL · CL_22081 · May 8 · 04:00

研究人员修复强化学习策略优化中的合成数据故障

研究人员已识别并解决了基于模型的策略优化（MBPO）中的算法故障，MBPO是强化学习中使用的技术。研究发现，MBPO与Soft Actor-Critic（SAC）等其他方法相比，由于尺度不匹配和残差下一状态预测，可能表现不佳，这会导致Critic低估和不可靠的合成数据。引入了一种名为Fixing That Free Lunch（FTFL）的新方法，该方法结合了目标归一化和直接下一状态预测来解决这些问题，在多个基准任务上表现得到改善。
TOOL · CL_16012 · May 5 · 04:00

新的可解释体验式学习模型在强化学习方面展现出潜力

研究人员引入了一种新颖的可解释体验式学习模型，该模型利用状态历史和全局反馈来构建行为模型。该模型将学习表示为状态之间的转换图，每个转换都由效用和证据计数进行注释。它专为资源有限环境中的强化学习任务而设计，并在 OpenAI Gym Atari Breakout 基准测试上展现出与基于神经网络的解决方案相当的性能。

大型语言模型探索偏好对齐和失败缓解技术

研究人员修复强化学习策略优化中的合成数据故障

新的可解释体验式学习模型在强化学习方面展现出潜力