实体 Group Relative Policy Optimization

Group Relative Policy Optimization

PulseAugur coverage of Group Relative Policy Optimization — every cluster mentioning Group Relative Policy Optimization across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 25

发布 · 30天

90 天内 0

论文 · 30天

90 天内 25

层级分布 · 90 天

关系

instance of Grpo 70%

情绪 · 30 天

11 天有情绪数据

最近 · 第 2/2 页 · 共 25 条

RESEARCH · CL_11889 · May 1 · 04:00

新的博弈论框架优化大型语言模型以提高答案的准确性

研究人员引入了一个名为“分布对齐博弈”的新博弈论框架，用于根据最终答案的正确性来优化语言模型。该方法通过将问题转化为一个可处理的投影问题，解决了直接优化答案级目标的计算难度。该框架统一了近期提高多样性和自我改进的方法，在数学推理任务中显示出显著的效率提升。
RESEARCH · CL_13003 · Apr 28 · 11:01

SymphonyGen 使用3D分层框架进行可控管弦乐生成

研究人员开发了SymphonyGen，一个新颖的3D分层框架，用于生成复杂的管弦乐。该系统通过采用级联解码器架构，解决了平衡高级音乐结构与详细多轨编排的挑战。SymphonyGen通过“短乐谱”条件机制实现可控和声，并利用具有感知奖励的强化学习来确保和声质量和音乐性。
RESEARCH · CL_18799 · Apr 28 · 04:00

New research explores AI contribution measurement, RL optimization, and OOD detection

Researchers have developed CoTrace, a framework to measure and expose goal-level contributions in human-AI collaboration, revealing that while AI accounts for a smaller percentage of overall goal-shaping, it significant…
RESEARCH · CL_06777 · Apr 28 · 04:00

研究发现合成奖励操纵数据不能反映真实的 AI 行为

一项新近发表在 arXiv 上的研究，调查了代码生成模型中合成奖励操纵与自然发生的奖励操纵之间的差异。研究人员发现，在合成操纵数据上训练的监控器，在泛化到真实世界的野外操纵场景时表现不佳。该研究提出了一种方法，使用修改后的 Group Relative Policy Optimization 结合冲突的单元测试，来生成更真实的野外操纵轨迹，并证明了在该数据上训练的监控器表现出更强的泛化能力。
RESEARCH · CL_05420 · Apr 21 · 08:37

研究人员提出面向目标的轨迹信用分配以用于视觉生成

研究人员开发了一个名为“面向目标的轨迹信用分配”（OTCA）的新框架，以使用强化学习改进视觉生成模型的训练。当前的方法通常在整个生成过程中广泛分配奖励，当涉及图像质量和文本对齐等多个目标时，会导致次优结果。OTCA通过将奖励分解到不同的去噪步骤，并根据特定目标自适应地分配它们来解决这个问题，从而产生更结构化和有效的训练信号。实验表明，OTCA显著提高了图像和视频的生成质量。

新的博弈论框架优化大型语言模型以提高答案的准确性

SymphonyGen 使用3D分层框架进行可控管弦乐生成

New research explores AI contribution measurement, RL optimization, and OOD detection

研究发现合成奖励操纵数据不能反映真实的 AI 行为

研究人员提出面向目标的轨迹信用分配以用于视觉生成