Grand Portage National Monument
PulseAugur coverage of Grand Portage National Monument — every cluster mentioning Grand Portage National Monument across labs, papers, and developer communities, ranked by signal.
- 2026-05-08 research_milestone A paper details a fix for gradient starvation in GRPO for binary rewards, significantly improving performance on GSM8K. 来源
6 天有情绪数据
-
New PRISM framework corrects SFT flaws in multimodal LLM training
New research from institutions including the Hong Kong University of Science and Technology (Guangzhou) reveals a critical flaw in the common post-training paradigm for multimodal large language models (MLLMs). The stan…
-
GEPA通过分析失败轨迹优化AI提示
研究人员开发了GEPA,一种用于优化复杂AI系统提示的新方法。GEPA分析失败的执行路径,并自动优化导致错误的特定模块的提示。在六项任务的测试中,GEPA的平均性能比GRPO方法高出6%,并且使用的回滚次数显著减少。
-
新方法KVPO和Flash-GRPO提升AI视频生成对齐效果
研究人员开发了两种新方法KVPO和Flash-GRPO,以改进自回归视频生成模型与人类偏好的对齐。KVPO通过操纵历史键值缓存条目来生成多样化的视频故事情节,利用因果语义探索策略。Flash-GRPO为视频扩散模型提供了一种计算效率更高的单步优化方法,解决了资源有限情况下的不稳定性与性能下降问题。
-
开源 AntAngelMed 模型以 103B 参数提供高效医疗 AI
研究人员推出 AntAngelMed,一个拥有 1030 亿参数的开源医疗语言模型。它采用了专家混合(MoE)架构,每次查询仅激活 61 亿参数,从而提高了效率。这种设计使其在 H20 硬件上能够以超过每秒 200 个 token 的速度,媲美 400 亿参数密集模型的性能。该模型支持 128K 上下文长度,并经历了包括在医学语料库上预训练、监督微调和强化学习在内的三阶段训练过程。
-
New methods enhance LLM reasoning for long-context and multilingual tasks
Researchers have developed new methods for improving large language model reasoning capabilities, particularly for long-context and multilingual tasks. One approach, OGLS-SD, uses outcome-guided logit steering to calibr…
-
新的强化学习算法修复将GSM8K准确率提升45个点
研究人员在将组相对策略优化(GRPO)算法应用于二元奖励时,发现了一个关键问题,导致“梯度饥饿”。当一组中的所有响应都正确或不正确时,就会发生这种情况,导致学习信号为零。研究证明,这种退化比之前认为的更严重,并表明一个简单的修复方法,即固定参考符号优势,显著提高了性能。在GSM8K数据集上,与标准的GRPO方法相比,这种修复将准确率提高了45.4个点。
-
MotionGRPO利用强化学习增强自我运动恢复能力
研究人员推出MotionGRPO,一个旨在改进从头戴设备信号恢复全身3D人体运动的新框架。该方法通过在扩散过程中采用强化学习进行细粒度指导,解决了现有基于扩散技术常导致重建错误的局限性。MotionGRPO利用组相对策略优化(GRPO)和混合奖励系统,平衡了全局视觉合理性与局部关节精度,同时还纳入了噪声注入策略以增强样本多样性和稳定学习。
-
新理论解释RLVR优化动力学和步长阈值
研究人员开发了一个用于可验证奖励强化学习(RLVR)的理论框架,这是一种用于通过二元反馈微调大型语言模型的技巧。该研究引入了一个“梯度间隙”指标来分析训练过程,并确定了一个关键的收敛步长阈值。该理论解释了响应长度和成功率等因素如何影响学习稳定性,并预测在固定学习率下可能无法达到100%的成功率。
-
New Pair-GRPO algorithms enhance LLM alignment stability and generalization
Researchers have introduced the Pair-GRPO family, a novel theoretical framework designed to enhance the stability and generality of reinforcement learning for aligning large language models. This family includes two var…
-
New S-trace method improves RLVR efficiency and credit assignment
Researchers have introduced Selective Eligibility Traces (S-trace), a novel method designed to enhance the reasoning capabilities of large language models within the Reinforcement Learning with Verifiable Rewards (RLVR)…
-
新的平衡聚合方法改进了 LLM 的 GRPO 训练
研究人员已识别并提出了 GRPO 风格训练中聚合偏差的解决方案,这是一种用于增强大型语言模型推理和代码生成的方法。研究表明,标准的 GRPO 聚合方法,即序列聚合和标记聚合,会引入不同的优化偏差。为了对抗这种偏差,他们引入了平衡聚合(BA),这是一种即插即用的替代方案,可提高训练稳定性和性能。使用 Qwen2.5-Math-7B 和 Qwen3-1.7B 模型进行的实验证明了 BA 在各种推理和编码基准测试中的有效性。
-
vLLM V1引擎重写在后端修复后实现与V0的对等
Hugging Face的vLLM团队详细介绍了如何将他们新的V1引擎与V0参考模型对齐的过程,重点在于确保后端对等,然后再处理强化学习(RL)目标的变化。他们识别并修复了四个关键问题:处理已处理的logprobs的方式、V1特有的运行时默认值、inflight权重更新路径以及使用fp32作为最终投影层。这些修正对于恢复后端行为以匹配V0参考模型至关重要,从而能够准确评估RL目标调整。
-
MICA框架通过新颖的强化学习方法增强LLM情感支持对话
研究人员推出了一种新颖的强化学习框架MICA,旨在提高大型语言模型在多轮情感支持对话中的表现。这种无需批评者的方法通过从共享势函数中推导即时和延迟信用,来解决稀疏奖励和信用分配不佳等挑战。MICA利用增量距离奖励进行逐轮优化,并利用其蒙特卡洛回报来处理延迟效应,在Qwen模型测试中,在EMPA、EQ-Bench和EmoBench等基准测试中表现出显著的改进。
-
研究发现,通过率奖励未能提升AI代码生成能力
一篇新的研究论文探讨了在代码生成任务的强化学习中使用通过率奖励的有效性。研究发现,虽然通过率奖励可以缓解稀疏奖励的问题,但在对照实验中,它们与二元奖励相比并不能持续提高性能。研究人员分析了奖励密度和梯度方向,得出结论认为通过率奖励通常校准不当,难以实现完全正确的进展,并可能导致冲突的优化信号。
-
新框架将大语言模型推理与因果模型相结合,用于事实核查
研究人员开发了一个新框架,该框架使用结构因果模型(SCMs)将大语言模型(LLMs)的多跳推理进行接地。这种方法将事实核查视为一个因果推理过程,旨在减少幻觉并提高逻辑一致性。研究发现推理链长度与准确性之间存在倒U型关系,从而开发了一种名为组相对策略优化(GRPO)的强化学习策略,以平衡复杂性和简洁性。
-
Faithful-Agent框架提高了GUI代理在屏幕证据上的基础性
研究人员开发了一个名为Faithful-Agent的新框架,以提高基于视觉语言模型的GUI代理的可靠性。该框架通过优先考虑基于屏幕证据和用户指令的忠实行动来解决代理行为不忠实的问题。该系统采用两阶段微调过程,并结合了引导优势估计器(GuAE)来增强忠实性和指令遵循能力,显著提高了在Trap SR等任务上的性能。
-
OpenSearch-VL 提供高级多模态搜索代理的开放式方案
研究人员开发了 OpenSearch-VL,这是一种新颖的、完全开源的、用于训练高级多模态深度搜索代理的方案。该方法利用了一个精心策划的高质量训练数据管道、一个结合文本和图像搜索以及各种处理能力的多元化工具环境,以及一个专门用于处理工具失败的训练算法。由此产生的代理在多项基准测试中表现出显著的性能提升,可与专有模型相媲美,旨在使前沿搜索代理研究更加易于获取。
-
VAnim框架使用渲染感知的强化学习生成SVG动画
研究人员推出了一种新颖的框架VAnim,旨在根据文本描述生成可缩放矢量图形(SVG)动画。该方法将动画建模为SVG DOM树上的稀疏状态更新,显著缩短了序列长度,同时保持了结构完整性。VAnim采用“先识别后规划”的运动规划机制以实现精确控制,并利用渲染感知的强化学习将代码更新与视觉反馈对齐。该框架使用新引入的SVGAnim-134k数据集与现有方法进行基准测试,在语义对齐和结构有效性方面均表现出卓越的性能。
-
新的基准和模型推动视频中通用时刻检索的进展
研究人员引入了通用时刻检索(GMR),这是一个视频分析的新框架,它超越了每个查询只有一个匹配时刻的假设。该方法旨在检索所有相关的时域片段,或在没有时刻匹配给定自然语言查询时正确识别出来。为了支持这一点,他们使用足球视频开发了 Soccer-GMR 基准,并提出了两种建模范式:用于现有模型的 GMR 适配器和用于微调多模态大语言模型的 GRPO 奖励。
-
AI model finetuning mostly idempotent, DPO can amplify traits
A guide explores advanced techniques for post-training large language models, focusing on Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), and Group Relative Policy Optimization (GRPO). These methods …