实体 AIME 2024

AIME 2024

PulseAugur coverage of AIME 2024 — every cluster mentioning AIME 2024 across labs, papers, and developer communities, ranked by signal.

总计 · 30天

9

90 天内 9

发布 · 30天

0

90 天内 0

论文 · 30天

8

90 天内 8

层级分布 · 90 天

主题

情绪 · 30 天

3 天有情绪数据

最近 · 第 1/1 页 · 共 9 条

RESEARCH · CL_128417 · Jul 6 · 17:59

新研究探索可控泛化失败和LLM的高效RL蒸馏

研究人员正在探索改进语言模型泛化和推理能力的新方法。一篇论文提出了一种构建模型的技术，通过在条件策略的混合物上进行训练来展示可控的泛化失败，这有助于进行对齐压力测试。另一项研究引入了直接策略内蒸馏（Direct-OPD）作为一种更有效的方式，将强化学习的收益从小型模型转移到大型模型，无需昂贵的奖励建模或在大型模型上进行直接RL。该方法已显示出显著的改进，例如在AIME 2024基准测试中提升了Qwen3-1.7B的性能。
RESEARCH · CL_128342 · Jul 6 · 00:00

TREK方法通过扩展探索支持来提升LLM推理能力

研究人员推出了一种新颖的分阶段程序TREK（Teacher-Routed Exploration via Forward KL），旨在增强语言模型的能力，特别是在复杂的推理任务中。TREK利用蒸馏并非为了直接模仿，而是为了扩展模型的探索支持，使其能够处理当前策略可能 falter 的提示。该方法在应用于Qwen3等模型时，在AIME 2024和AIME 2025等数学推理基准上显示出显著的改进，并且还提高了ALFWorld和Scien…
RESEARCH · CL_108502 · Jun 24 · 10:18

新的 EpiKV 方法优化 LLM KV 缓存，提高效率和上下文长度

一篇新研究论文介绍了一种名为 EpiKV 的方法，用于优化大型语言模型中的 KV 缓存淘汰。与依赖注意力权重的先前方法不同，EpiKV 使用源自模型内部表征变化的“顿悟分数”。这种方法避免了计算注意力矩阵的需要，能够实现融合内核集成，并显著提高上下文长度的处理能力。实验表明，EpiKV 在 MATH-500 和 AIME-2024 等基准测试中表现与基线相当或更优，同时提供了显著的速度提升。
TOOL · CL_106806 · Jun 17 · 00:00

新的TAPO方法通过显式纠错增强LLM推理能力

研究人员推出了一种名为轨迹增强策略优化（TAPO）的新方法，通过自蒸馏来增强大型语言模型（LLM）的推理能力。与隐式地将模型输出与目标分布对齐的传统方法不同，TAPO显式地构建了纠正性轨迹。这些轨迹保留了错误推理直到失败点，然后结合了来自正确参考样本的自然语言诊断和纠正后的推理。
RESEARCH · CL_98141 · Jun 17 · 00:00

新的TAPO方法通过显式纠错增强LLM自蒸馏 · 跟踪4个来源

研究人员推出了一种新方法，称为轨迹增强策略优化（TAPO），用于大型语言模型的自蒸馏。与隐式对齐分布的传统方法不同，TAPO显式地构建了纠正性轨迹。这些轨迹保留了错误推理直到失败点，然后纳入自然语言诊断和纠正后的推理。在AIME 2024、AIME 2025和HMMT 2025上的实验表明，与GRPO相比，TAPO提高了初始推理和纠错的有效性。
TOOL · CL_67194 · Jun 2 · 16:22

DeepSeek 发布用于本地AI推理的蒸馏R1模型

DeepSeek 发布了其R1推理模型的六个蒸馏版本，专为在消费级硬件上进行本地AI部署而设计。这些模型源自庞大的671B参数原始模型，体积从1.1GB到43GB不等，并基于Qwen2.5和Llama 3架构构建。最小的变体可以在只有8GB显存的GPU上运行，在数学和编码基准测试中表现出色，可与更大、更旧的模型相媲美。
TOOL · CL_44850 · May 22 · 04:00

新基准揭示大型语言模型推理失败及Claude的回避行为

研究人员开发了鲁棒推理基准（RRB），这是一个新的评估流程，用于测试大型语言模型在经过故意文本扰动的数学问题上的表现。该基准显示，虽然前沿模型在很大程度上具有弹性，但Anthropic的Claude模型会明确拒绝许多经过转换的提示。开放权重模型准确率显著下降，其中一些模型在各种失败模式下的准确率下降高达54%。研究还发现“查询内注意力稀释”是一个关键问题，即中间推理步骤会降低同一上下文窗口内后续问题的性能，这表明需要进行架构更改来管理注意力机制。
TOOL · CL_44823 · May 22 · 04:00

New STAND technique slashes LLM reasoning latency by 65%

研究人员开发了 STAND（STochastic Adaptive N-gram Drafting），一种新的无模型推测解码技术，旨在加速语言模型推理。该方法利用推理轨迹中的冗余来更有效地预测 token，而无需单独的草稿模型。STAND 在各种推理任务和模型上已证明可将推理延迟减少 60-65%，同时保持准确性并优于现有的推测解码方法。
RESEARCH · CL_44784 · May 22 · 04:00

新方法增强了用于 LLM 训练的 on-policy distillation

研究人员开发了改进 on-policy distillation (OPD) 的新方法，OPD 是一种利用大型模型训练小型语言模型的技术。一种方法 TIP，通过分析学生熵和师生分歧来识别信息性 token，实现了显著的内存减少和性能提升。另一种方法 SimCT，通过扩展监督空间以包含多 token 续写来解决不同分词器的问题，恢复了丢失的信号并提高了推理和代码生成任务的性能。此外，EffOPD 通过优化更新轨迹和模块分配来加速 OPD…