PulseAugur
实时 03:10:49
实体 AIME2026

AIME2026

PulseAugur coverage of AIME2026 — every cluster mentioning AIME2026 across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_117458 ·

    新方法将大语言模型评估失败与定向数据修复联系起来

    研究人员开发了一种新颖的方法,以弥合大语言模型在能力评估与数据整理之间的差距。他们的方法被称为“能力切片”,通过根据共享特征(如任务类型和输出约束)对评估样本进行分组,从而能够精确地定位模型的弱点。这使得一个闭环系统得以实现,其中基准测试的失败可以系统地追溯到具体的数据干预,从而超越直观的修复,实现可审计的实验验证。