研究人员开发了Curation-Bench,一个旨在评估通用编程智能体自动化AI模型训练数据策展过程能力的新基准。初步测试表明,智能体可以在十次迭代内完成基本的数据选择,与现有基线相当。然而,智能体倾向于进行微小调整,而不是探索根本性的新数据策略家族。一种需要智能体引用和改编先前研究方法的脚手架式方法,促成了优越的数据选择策略的自主组合,该策略以显著更少的数据超越了已发布的基线。 AI
影响 自动化数据策展可以显著降低训练AI模型的成本和精力,从而可能加速开发。
排序理由 该集群描述了一篇介绍新基准和关于AI数据策展自动化发现的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
在 Hugging Face Daily Papers 阅读 →
- Claude Code
- Codex
- Curation-Bench
- DataComp-Small
- generalist coding agents
- Kimi K2.5
- LLaVA-665K
- OpenHands
- Qwen3.5-397B
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →