PulseAugur
实时 11:37:13
实体 HalfCheetah-v4

HalfCheetah-v4

PulseAugur coverage of HalfCheetah-v4 — every cluster mentioning HalfCheetah-v4 across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_21988 ·

    新的 Pair-GRPO 算法增强了 LLM 对齐的稳定性和泛化能力

    研究人员引入了 Pair-GRPO 系列,这是一个新颖的理论框架,旨在增强用于对齐大型语言模型(LLM)的强化学习(RL)的稳定性和通用性。该系列包含两个变体:Soft-Pair-GRPO 和 Hard-Pair-GRPO,它们通过优化奖励信号和引入显式策略约束,解决了当前成对偏好学习方法的局限性。在标准的 LLM 对齐基准和连续控制任务上的实验表明,Pair-GRPO 在对齐质量和训练稳定性方面始终优于现有方法。