Grand Portage National Monument
PulseAugur coverage of Grand Portage National Monument — every cluster mentioning Grand Portage National Monument across labs, papers, and developer communities, ranked by signal.
- 2026-05-08 research_milestone A paper details a fix for gradient starvation in GRPO for binary rewards, significantly improving performance on GSM8K. 来源
6 天有情绪数据
-
新的 Kernelized Advantage Estimation 通过非参数统计方法改进 LLM 推理能力
研究人员引入了 Kernelized Advantage Estimation (KAE) 来通过强化学习增强大型语言模型 (LLM) 的推理能力。KAE 解决了现有方法(如 Proximal Policy Optimization 和 GRPO)的局限性,这些方法要么计算开销高,要么需要过多的采样。通过利用经典的非参数统计方法,特别是核平滑,KAE 旨在以更少的每次提示推理轨迹来实现准确的值和梯度估计。这种方法在资源受限的环境中尤其…
-
美团部署生成式竞价压低以优化广告支出
研究人员开发了生成式竞价压低(GBS),一种优化实时广告竞价的新方法。GBS 利用自回归生成模型创建压低比例,并利用分层动态网络和奖励偏好对齐系统提取特征。该方法旨在通过克服现有两阶段竞价压低技术的局限性来提高短期和长期剩余。GBS 已成功部署在美团 DSP 平台上,处理每日数十亿的竞价请求。
-
IBM 发布 Granite 4.1 LLMs,支持 512K 上下文并采用 Apache 2.0 许可
IBM 发布了 Granite 4.1 系列大型语言模型,包含 3B、8B 和 30B 参数版本。这些模型通过包含将上下文窗口扩展到 512K 标记的五阶段预训练过程,在约 15 万亿个标记上进行了训练。进一步的优化包括在精选数据上进行监督微调和强化学习。值得注意的是,8B 指令模型取得了与更大的 Granite 4.0 MoE 模型相当的性能,并且所有 Granite 4.1 模型均根据 Apache 2.0 许可提供。
-
SymphonyGen 使用3D分层框架进行可控管弦乐生成
研究人员开发了SymphonyGen,一个新颖的3D分层框架,用于生成复杂的管弦乐。该系统通过采用级联解码器架构,解决了平衡高级音乐结构与详细多轨编排的挑战。SymphonyGen通过“短乐谱”条件机制实现可控和声,并利用具有感知奖励的强化学习来确保和声质量和音乐性。
-
LLMs fine-tuned for traffic control with critic-guided reinforcement learning
Researchers have developed DGLight, a novel framework that fine-tunes large language models for traffic signal control. This approach utilizes a Deep Q-Network critic to guide the optimization process, enabling the mode…
-
新的训练方法提升了VLM移动代理的交互和安全能力
研究人员开发了两种增强基于视觉语言模型(VLM)的移动代理能力的新方法。Mobile-R1引入了分层课程来改善探索和自我纠正,解决了GUI交互中稀疏奖励的挑战。InquireMobile专注于安全性,通过教会代理在关键决策点请求人类帮助,并引入了一个名为InquireBench的新基准来评估此能力。
-
SEVerA 框架验证自进化 AI 代理的安全性与正确性
研究人员推出了 SEVerA,一个旨在通过形式化安全性和正确性保证来合成自进化 AI 代理的框架。该方法将代理代码生成视为一个受约束的学习问题,将形式化规范与任务效用目标相结合。SEVerA 采用形式化守护生成模型 (FGGM) 来封装底层模型,确保输出符合指定合同并提供经过验证的回退机制。该框架在程序验证和符号数学合成等任务中取得了成功,实现了零约束违规,同时优于无约束基线。
-
New method uses hidden states to improve AI reasoning credit assignment
Researchers have developed a new method called Span-level Hidden state Enabled Advantage Reweighting (SHEAR) to improve credit assignment in reinforcement learning for language models. SHEAR leverages the Wasserstein di…
-
研究人员使用 SHAP 和 RL 改进机器人泛化性和依从性推理
研究人员开发了一个使用 SHapley Additive exPlanations (SHAP) 来分析和改进机器人强化学习 (RL) 算法泛化性的框架。该方法量化了不同算法和超参数配置对泛化差距的影响,为选择最优设置提供了理论基础和实践指导。另外,一个名为 Affordance-R1 的新模型将强化学习与思维链推理相结合,以增强多模态大语言模型中的依从性基础,展示了强大的零样本泛化能力和涌现式推理能力。
-
V-GRPO方法通过更快、更稳定的强化学习增强去噪生成模型
研究人员推出了一种新颖的在线强化学习方法V-GRPO,旨在使去噪生成模型与期望结果对齐。该方法通过有效利用证据下界(ELBO)代理,克服了先前的局限性,其性能优于优化采样轨迹的方法。V-GRPO将ELBO代理与GRPO算法相结合,并采用技术来减少方差和控制梯度步长,从而提高了文本到图像合成的稳定性和性能。
-
可控语音对话生成:面向K-12非母语英语学习者的LLM驱动评分系统
研究人员开发了一个新的LLM驱动框架,用于适应非母语环境中K-12英语学习者的口语对话生成。该系统利用中国国家课程,通过四级评分系统控制词汇复杂度,并整合了分级词汇表和对话语料库等新资源。核心创新是DDPO算法,一种基于GRPO的方法,可在保持多样性的同时优化对话质量,在自然度和教学价值方面优于现有方法。
-
DVPO和EVPO通过新颖的RL优化技术推进LLM训练后
研究人员引入了DVPO,这是一个新的强化学习框架,旨在改进大型语言模型(LLM)的训练后,特别是在处理嘈杂或不完整的监督信号时。DVPO利用分布值建模和不对称风险正则化来平衡鲁棒性和泛化性,旨在避免现有方法可能产生的过于保守的策略。在对话、数学推理和科学问答任务上的实验表明,在嘈杂条件下,DVPO的表现优于PPO和GRPO等标准方法。
-
研究人员提出面向目标的轨迹信用分配以用于视觉生成
研究人员开发了一个名为“面向目标的轨迹信用分配”(OTCA)的新框架,以使用强化学习改进视觉生成模型的训练。当前的方法通常在整个生成过程中广泛分配奖励,当涉及图像质量和文本对齐等多个目标时,会导致次优结果。OTCA通过将奖励分解到不同的去噪步骤,并根据特定目标自适应地分配它们来解决这个问题,从而产生更结构化和有效的训练信号。实验表明,OTCA显著提高了图像和视频的生成质量。
-
Kwai AI的SRPO以10倍的训练步数实现了DeepSeek-R1-Zero的性能
来自快手Kwaipilot团队的研究人员开发了一个名为SRPO的新型强化学习框架,旨在提高大型语言模型的效率和性能。该新方法通过采用两阶段训练过程,解决了标准GRPO在样本效率和跨域优化冲突等方面的局限性。SRPO在数学和代码基准测试中展示了最先进的性能,达到了DeepSeek-R1-Zero的水平,同时仅需十分之一的训练步数。