AIME 2025
PulseAugur coverage of AIME 2025 — every cluster mentioning AIME 2025 across labs, papers, and developer communities, ranked by signal.
1 天有情绪数据
-
新基准揭示大型语言模型推理失败及Claude的回避行为
研究人员开发了鲁棒推理基准(RRB),这是一个新的评估流程,用于测试大型语言模型在经过故意文本扰动的数学问题上的表现。该基准显示,虽然前沿模型在很大程度上具有弹性,但Anthropic的Claude模型会明确拒绝许多经过转换的提示。开放权重模型准确率显著下降,其中一些模型在各种失败模式下的准确率下降高达54%。研究还发现“查询内注意力稀释”是一个关键问题,即中间推理步骤会降低同一上下文窗口内后续问题的性能,这表明需要进行架构更改来管理注意力机制。
-
新方法增强了用于 LLM 训练的 on-policy distillation
研究人员开发了改进 on-policy distillation (OPD) 的新方法,OPD 是一种利用大型模型训练小型语言模型的技术。一种方法 TIP,通过分析学生熵和师生分歧来识别信息性 token,实现了显著的内存减少和性能提升。另一种方法 SimCT,通过扩展监督空间以包含多 token 续写来解决不同分词器的问题,恢复了丢失的信号并提高了推理和代码生成任务的性能。此外,EffOPD 通过优化更新轨迹和模块分配来加速 OPD…
-
NVIDIA Star Elastic embeds multiple reasoning models in one checkpoint
NVIDIA researchers have introduced Star Elastic, a novel post-training method that embeds multiple reasoning models of varying parameter sizes within a single checkpoint. This approach allows for the extraction of small…
-
New RLVR method enhances LLM reasoning with positive-negative prompt pairing
Researchers have developed a new method called prompt-efficient RLVR that improves the training of large language models for reasoning tasks. This technique focuses on selecting prompts that provide both positive anchor…
-
新的强化学习方法通过控制rollout通过率来优化智能体训练
研究人员开发了一种名为前缀采样(PS)的新技术,以提高AI智能体强化学习(RL)的效率。该方法通过将rollout组引导至50%的通过率来解决因通过率倾斜而浪费计算资源的问题,从而最大化奖励熵和对比信号。在SWE-bench任务上,PS在Qwen3-14B上实现了2.01倍的速度提升,在Qwen3-32B上实现了1.55倍的速度提升,同时还提高了验证性能。
-
Process Supervision via Verbal Critique Improves Reasoning in Large Language Models
Researchers have developed a new framework called Verbal Process Supervision (VPS) that enhances the reasoning capabilities of large language models without requiring gradient updates. This method utilizes structured na…