研究人员开发了一种新颖的方法,以弥合大语言模型在能力评估与数据整理之间的差距。他们的方法被称为“能力切片”,通过根据共享特征(如任务类型和输出约束)对评估样本进行分组,从而能够精确地定位模型的弱点。这使得一个闭环系统得以实现,其中基准测试的失败可以系统地追溯到具体的数据干预,从而超越直观的修复,实现可审计的实验验证。 AI
影响 通过直接将评估失败与数据干预联系起来,提供了一种系统化、可审计的改进大语言模型性能的方法。
排序理由 详细介绍大语言模型评估和数据整理新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
- AIME2025
- AIME2026
- alphaXiv
- arXiv
- CatalyzeX
- Connected Papers
- DagsHub
- Gotit.pub
- Hugging Face
- Litmaps
- ScienceCast
- SciTE
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →