研究人员开发了 HERMES,一种新颖的标注基底,旨在改进 AI 模型预训练数据混合。与依赖固定语义轴或粒度的现有方法不同,HERMES 提供了一个源自数据本身的分层系统。这允许对粒度进行灵活控制,从而实现更细致的数据混合设计,并可能揭示固定粒度流水线无法测试的数据质量与覆盖范围之间的相互作用。 AI
影响 通过实现对数据混合的更精细控制并揭示数据质量相互作用的新见解,这项研究可能带来更有效的 AI 模型预训练。
排序理由 该项目是一篇学术论文,详细介绍了一种新的 AI 数据标注方法。[lever_c_demoted from research: ic=1 ai=1.0]
- alphaXiv
- arXiv
- CatalyzeX
- DagsHub
- Gotit.pub
- HERMES
- Hugging Face
- IArxiv
- k-means clustering
- ScienceCast
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →