English(EN) LLMs are no longer created w/ human data alone. They rely on other models to generate & filter data, evaluate outputs, & guide dev work.

大型语言模型现已使用AI生成的数据进行训练，揭示复杂的模型依赖关系

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-11 15:57

大型语言模型越来越多地使用由其他AI模型生成和过滤的数据进行训练，而不是仅依赖人类创建的数据。这种转变涉及复杂的相互依赖关系，例如Olmo 3依赖89个其他模型和183个数据集，Nemotron 3依赖273个模型和560个数据集。为了帮助研究人员应对这种错综复杂的依赖关系，创建者开发了一个名为ModSleuth的工具。 AI

影响强调了在大型语言模型开发中对合成数据和复杂模型相互依赖日益增长的依赖性，影响了训练效率和透明度。

排序理由该集群讨论了一种追踪大型语言模型数据依赖关系的新方法，这是一个面向研究的主题。[lever_c_demoted from research: ic=1 ai=1.0]

在 Bluesky Jetstream — AI desk 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

Bluesky Jetstream — AI desk TIER_1 English(EN) · ai2.bsky.social · 2026-06-11 15:57

LLMs are no longer created w/ human data alone. They rely on other models to generate & filter data, evaluate outputs, & guide dev work.

LLMs are no longer created w/ human data alone. They rely on other models to generate & filter data, evaluate outputs, & guide dev work. So what is a modern LLM built on? Olmo 3 → 89 model + 183 dataset dependencies; Nemotron 3 → 273 + 560 We made ModSleuth to trace this. 🧵

报道来源 [1]

LLMs are no longer created w/ human data alone. They rely on other models to generate & filter data, evaluate outputs, & guide dev work.

相关实体

相关话题