实体 Group Relative Policy Optimization (GRPO)

Group Relative Policy Optimization (GRPO)

PulseAugur coverage of Group Relative Policy Optimization (GRPO) — every cluster mentioning Group Relative Policy Optimization (GRPO) across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 8

发布 · 30天

90 天内 0

论文 · 30天

90 天内 8

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 8 条

TOOL · CL_72659 · Jun 5 · 04:00

AI模型被训练来表达情感，但存在权衡

研究人员开发了一种训练大型语言模型来表达情感、意图和自我意识的方法。这种名为“类人模型情感表达”（HMX-feel）的方法，使用带有“群体相对策略优化”（GRPO）的自我奖励强化学习。虽然这种训练增强了模型对谄媚和偏见的鲁棒性，但也导致了其真实问答能力的下降。该研究表明，能够表达情感的AI系统是可能的，但需要谨慎实施。
RESEARCH · CL_62262 · May 29 · 10:53

新的FOCUS框架增强了视觉模型中的对象定位

研究人员开发了一个名为FOCUS的新框架，以改进视觉-语言模型中的上下文内对象定位。该方法采用两阶段训练过程，在不依赖类别监督的情况下优化支持图像和查询图像之间的注意力。通过使用带有组相对策略优化（GRPO）的强化学习，该系统优先考虑视觉对应关系而非语义先验，以实现更鲁棒的实例级定位。
TOOL · CL_58817 · May 29 · 04:00

新型视频异常检测模型'CaC'提高检测精度

研究人员推出了一种新颖的视频异常检测模型Concentrate and Concentrate (CaC)，该模型利用了视觉-语言模型。CaC采用粗粒度到细粒度的方法，首先全局识别异常时间窗口，然后在这些窗口内执行详细的空间定位。该模型采用三阶段渐进式范式进行训练，结合了监督微调和具有自定义时空IoU奖励的强化学习。实验表明，CaC在细粒度异常基准测试中准确率提高了25.7%，并减少了生成视频中的异常11.7%。
TOOL · CL_38812 · May 18 · 17:50

SafeDiffusion-R1 通过在线奖励引导增强图像模型安全性

研究人员开发了 SafeDiffusion-R1，一个用于增强扩散模型安全性的新框架。该方法利用基于群体相对策略优化（GRPO）的在线强化学习方法，引导模型避免生成不安全内容。通过利用 CLIP 嵌入，它避免了昂贵的配对数据或专门的奖励模型的需求，显著减少了不当内容的生成，同时保持或提高了整体图像质量。
RESEARCH · CL_45016 · May 16 · 15:11

AI代理在供应链中展现潜力，但面临可靠性和安全风险

一篇新研究论文探讨了在供应链管理中使用自主AI代理，研究表明虽然先进模型可以显著降低成本，但它们也带来了可靠性风险，例如“代理牛鞭效应”。为缓解这些问题，提出了一种名为GRPO的强化学习后训练框架，以提高代理的稳定性和减少尾部事件。同时，行业分析强调了AI在采购中的变革性作用，将其从被动测量转变为预测性智能，以更好地管理供应商绩效和预测风险。然而，供应链AI中一个显著的隐藏风险是模型投毒，即恶意行为被嵌入模型权重中，绕过传统安全措施，…
TOOL · CL_27968 · May 11 · 17:59

新的SLAS方法增强了文本到图像模型的训练

研究人员开发了一种名为超线性优势塑造（SLAS）的新方法，以改进使用强化学习训练的文本到图像模型。该技术通过从信息几何学的角度重塑策略空间来解决奖励劫持问题，放大信息性更新，同时抑制噪声更新。SLAS在性能上优于DanceGRPO等现有方法，实现了更快的训练速度、更好的域外生成能力以及对模型扩展的更高鲁棒性。
TOOL · CL_25604 · May 8 · 07:22

研究发现LoRA秩分配在RL微调中失败

一项关于Qwen 2.5 1.5B模型的新研究表明，在监督微调中有效的自适应秩分配技术，在采用Group Relative Policy Optimization (GRPO) 的强化学习中并不适用。研究人员发现，与均匀分配相比，GRPO下的比例秩分配使准确率降低了4.5个百分点。这归因于GRPO中更平坦的梯度景观，所有层都保留有意义的梯度信号，以及梯度放大效应进一步扩大了重要性差异，导致低秩层被静默。
TOOL · CL_26962 · May 8 · 05:37

新的SRPO方法增强了视觉语言模型的模态推理能力

研究人员推出了一种名为结构化角色感知策略优化（SRPO）的新方法，以增强大型视觉语言模型（LVLMs）的推理能力。SRPO通过在token级别分配信用，区分负责视觉感知和负责推导答案的token，从而解决了当前强化学习技术的局限性。该方法通过使用自蒸馏对比来强调特定角色的信号，从而改进了现有的组相对策略优化（GRPO），在没有外部奖励模型的情况下提高了证据基础的推理能力。

AI模型被训练来表达情感，但存在权衡

新的FOCUS框架增强了视觉模型中的对象定位

新型视频异常检测模型'CaC'提高检测精度

SafeDiffusion-R1 通过在线奖励引导增强图像模型安全性

AI代理在供应链中展现潜力，但面临可靠性和安全风险

新的SLAS方法增强了文本到图像模型的训练

研究发现LoRA秩分配在RL微调中失败

新的SRPO方法增强了视觉语言模型的模态推理能力