AIME 2025 · PulseAugur

新的ACPO框架增强了大型语言模型的强化学习能力

研究人员推出了一种名为自适应信用策略优化（ACPO）的新框架，旨在改进大型语言模型强化学习中的信用分配。ACPO通过不对称地调整策略更新来解决稀疏奖励的挑战，重点关注成功试验中的不确定决策和失败试验中的过度自信的token。该方法旨在在保持策略梯度方向的同时，提高在AIME 2025和HumanEvalPro等基准测试上的性能，优于DAPO、GTPO和SAPO等现有方法。

RESEARCH · CL_128342 · Jul 6 · 00:00

TREK方法通过扩展探索支持来提升LLM推理能力

研究人员推出了一种新颖的分阶段程序TREK（Teacher-Routed Exploration via Forward KL），旨在增强语言模型的能力，特别是在复杂的推理任务中。TREK利用蒸馏并非为了直接模仿，而是为了扩展模型的探索支持，使其能够处理当前策略可能 falter 的提示。该方法在应用于Qwen3等模型时，在AIME 2024和AIME 2025等数学推理基准上显示出显著的改进，并且还提高了ALFWorld和Scien…

TOOL · CL_111725 · Jun 26 · 04:00

新方法使用错误草稿来提升LLM的数学能力

研究人员开发了一种名为“通过不匹配的错误草稿进行弱到强诱导”的新颖技术，以提高大型语言模型的能力。该方法涉及使用来自较小的、特定领域的模型的数学上不正确的草稿来训练一个更大的模型，其性能优于标准的强化学习微调。该技术在MATH-500和分布外AIME 2025/2026基准测试中显示出显著的提升，为Mathstral-7B模型实现了新的最先进水平。

TOOL · CL_107950 · Jun 24 · 04:00

新框架VeryTrace验证和修复LLM推理痕迹

研究人员开发了VeryTrace，一个旨在验证和修复大型语言模型（LLM）生成的推理痕迹的新框架。该系统使用领域特定语言（DSL）将自然语言推理形式化为结构化、可编译的格式。DSL明确定义了步骤依赖关系，将定量数据视为可执行表达式，并构建了语义推理。VeryTrace结合了确定性检查和LLM审计，以查明和修复错误，在数学、机器人学和亲属关系推理等各种领域提高了准确性，而无需领域特定的训练。

TOOL · CL_106821 · Jun 22 · 15:07

新基准TriggerBench揭示LLM的前瞻性记忆挑战

研究人员推出TriggerBench，这是一个旨在评估大型语言模型（LLM）前瞻性记忆（PM）的新基准。与依赖显式查询的回顾性记忆（RM）不同，PM评估LLM在没有直接提示的情况下自发回忆和处理潜在约束的能力。该基准显示，虽然增强的推理能力可以改善主动回忆，但LLM可能会过度拟合简单的“始终提醒”启发式方法，并且在处理隐式约束或过载触发器时遇到困难。此外，PM比RM更具挑战性，随着上下文长度的增加，准确性急剧下降，这表明强大的前瞻性记…

RESEARCH · CL_104687 · Jun 21 · 17:20

新框架统一图像生成能力；研究解决蒸馏挑战

研究人员推出了一种新颖的 on-policy 生成场蒸馏框架 DanceOPD，旨在将文本到图像、局部编辑和全局编辑等多种图像生成能力统一到单个模型中。该框架解决了将这些能力结合起来可能导致性能下降的常见问题。DanceOPD 将样本路由到特定的能力场，并使用速度 MSE 目标进行训练，从而在保持整体生成质量的同时组合专家能力。此外，其他研究还探索了 on-policy 蒸馏技术，包括缓解输出多样性减少和解决长推理任务中的位置偏差的方…

TOOL · CL_106806 · Jun 17 · 00:00

新的TAPO方法通过显式纠错增强LLM推理能力

研究人员推出了一种名为轨迹增强策略优化（TAPO）的新方法，通过自蒸馏来增强大型语言模型（LLM）的推理能力。与隐式地将模型输出与目标分布对齐的传统方法不同，TAPO显式地构建了纠正性轨迹。这些轨迹保留了错误推理直到失败点，然后结合了来自正确参考样本的自然语言诊断和纠正后的推理。

RESEARCH · CL_98141 · Jun 17 · 00:00

新的TAPO方法通过显式纠错增强LLM自蒸馏 · 跟踪4个来源

研究人员推出了一种新方法，称为轨迹增强策略优化（TAPO），用于大型语言模型的自蒸馏。与隐式对齐分布的传统方法不同，TAPO显式地构建了纠正性轨迹。这些轨迹保留了错误推理直到失败点，然后纳入自然语言诊断和纠正后的推理。在AIME 2024、AIME 2025和HMMT 2025上的实验表明，与GRPO相比，TAPO提高了初始推理和纠错的有效性。

SIGNIFICANT · CL_70061 · Jun 4 · 03:24

Ideogram 4.0 领衔开源图像模型发布；微软详解 MAI-Thinking-1

Ideogram 发布了其开源图像生成模型的 4.0 版本，该模型现被认为是同类产品中的最佳模型。此次发布以及 Reve 的进步，凸显了 AI 在处理图像布局和构图能力方面的显著进展。微软也发布了其 MAI-Thinking-1 模型，这是一项重大的技术发布，强调了从头开始训练而不进行蒸馏，并取得了高基准分数。

RESEARCH · CL_61375 · May 27 · 18:09

NVIDIA 量化 Alibaba 的 Qwen3.6-35B 模型以实现高效部署

NVIDIA 发布了 Alibaba 的 Qwen3.6-35B-A3B 模型的量化版本，命名为 nvidia/Qwen3.6-35B-A3B-NVFP4。该模型使用 NVFP4 数据类型，将内存需求减少约 3.06 倍，同时在各种基准测试中保持了有竞争力的性能。它针对 AI 代理系统、聊天机器人和 RAG 系统进行了优化部署，并已准备好商用。

RESEARCH · CL_51260 · May 26 · 04:00

新方法通过分析置信度动态来优化 LLM 推理

两篇新的研究论文提出通过分析大型语言模型（LLM）在推理过程中的置信度水平来优化其推理时间的方法。第一篇论文 EAGer 使用了 token 级熵来动态分配计算资源，仅在不确定性高时才分支到多个推理路径。第二篇论文置信度动态增益（CDG）观察到，正确的推理轨迹往往会随着时间的推移而提高置信度，而错误的轨迹则会下降，并利用这种动态来选择更好的答案。这两种方法在复杂推理基准测试中都显示出显著的性能提升和计算量减少。

TOOL · CL_44850 · May 22 · 04:00

新基准揭示大型语言模型推理失败及Claude的回避行为

研究人员开发了鲁棒推理基准（RRB），这是一个新的评估流程，用于测试大型语言模型在经过故意文本扰动的数学问题上的表现。该基准显示，虽然前沿模型在很大程度上具有弹性，但Anthropic的Claude模型会明确拒绝许多经过转换的提示。开放权重模型准确率显著下降，其中一些模型在各种失败模式下的准确率下降高达54%。研究还发现“查询内注意力稀释”是一个关键问题，即中间推理步骤会降低同一上下文窗口内后续问题的性能，这表明需要进行架构更改来管理注意力机制。

RESEARCH · CL_44784 · May 22 · 04:00

新方法增强了用于 LLM 训练的 on-policy distillation

研究人员开发了改进 on-policy distillation (OPD) 的新方法，OPD 是一种利用大型模型训练小型语言模型的技术。一种方法 TIP，通过分析学生熵和师生分歧来识别信息性 token，实现了显著的内存减少和性能提升。另一种方法 SimCT，通过扩展监督空间以包含多 token 续写来解决不同分词器的问题，恢复了丢失的信号并提高了推理和代码生成任务的性能。此外，EffOPD 通过优化更新轨迹和模块分配来加速 OPD…

RESEARCH · CL_24496 · May 9 · 22:24

NVIDIA Star Elastic 将多个推理模型嵌入单一检查点

NVIDIA 研究人员推出了一种新颖的训练后方法 Star Elastic，该方法将不同参数大小的多个推理模型嵌入到单一检查点中。这种方法无需额外的微调即可从较大的父模型中提取较小的、嵌套的子模型。Star Elastic 利用可训练的路由器和知识蒸馏来优化模型组件的选择，从而实现高效的资源利用和针对不同推理任务量身定制的模型性能。

TOOL · CL_20550 · May 7 · 04:00

新的RLVR方法通过正负提示配对增强LLM推理能力

研究人员开发了一种名为提示高效RLVR的新方法，可改进大型语言模型在推理任务上的训练。该技术侧重于选择同时提供积极锚点和来自罕见失败信号的提示，这与以往基于方差的方法不同。通过配对“难但可解”和“易但脆弱”的提示，并使用加权方法来放大成功和失败，该方法提高了样本效率，并在数学推理基准测试中取得了显著的性能提升。

RESEARCH · CL_20477 · May 6 · 16:44

新的强化学习方法通过控制rollout通过率来优化智能体训练

研究人员开发了一种名为前缀采样（PS）的新技术，以提高AI智能体强化学习（RL）的效率。该方法通过将rollout组引导至50%的通过率来解决因通过率倾斜而浪费计算资源的问题，从而最大化奖励熵和对比信号。在SWE-bench任务上，PS在Qwen3-14B上实现了2.01倍的速度提升，在Qwen3-32B上实现了1.55倍的速度提升，同时还提高了验证性能。

RESEARCH · CL_02960 · Apr 23 · 12:36

通过口头批评进行过程监督可提高大型语言模型的推理能力

研究人员开发了一种名为口头过程监督（VPS）的新框架，该框架无需梯度更新即可增强大型语言模型的推理能力。该方法利用更强大的AI生成的结构化自然语言批评来指导迭代的生成-批评-精炼过程。在GPQA Diamond和AIME 2025等基准测试上的实验表明，VPS取得了显著的改进，超越了现有的最先进结果，并优于Reflexion和Self-Consistency等其他方法。

RESEARCH · CL_103038 · Jan 27 · 18:58

新研究探讨多语言缩放、自主训练和大型语言模型安全

研究人员正在开发改进大型语言模型（LLM）训练和评估的新方法。Google DeepMind 推出了 ATLAS 框架，通过优化语言数据混合和模型规模来缩放多语言模型。与此同时，AutoTrainess 旨在实现 LLM 训练后流程的自动化，使其能够自我改进。其他研究则侧重于提高 LLM 的效率和安全性，例如使用更小的、开源权重的模型进行数据库集成，以及开发检测和缓解 LLM 系统漏洞和错误的技术。