English(EN) Scaling Multi-Hop Training Data via Graph-Constrained Path Selection

新方法通过图约束路径选择扩展LLM训练数据

作者 PulseAugur 编辑部 · [2 个来源] · 2026-05-29 12:39

研究人员开发了一种从非结构化文本生成大型语言模型多跳训练数据的新颖方法。他们的方法将路径枚举与语言表达分离开来，使用图约束路径选择来克服重复文档结构的局限性。该技术显著扩展了可用语料库，在专业任务上带来了性能的显著提升，例如在法律合同分析中可用数据增加了 4.4 倍。 AI

影响能够更有效地在专业文档上训练LLM，可能提高在法律科技等领域的性能。

排序理由该集群包含一篇详细介绍LLM训练数据生成新方法的学术论文。

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CL TIER_1 English(EN) · Pengyu Chen, Yonggang Zhang, Mingming Chen, Jun Song, Wei Xue, Yike Guo · 2026-06-01 04:00

通过图约束路径选择扩展多跳训练数据

arXiv:2605.31238v1 Announce Type: new Abstract: Endowing large language models with compositional reasoning over specialized documents requires multi-hop training data at scale, where such data rarely exists outside of curated benchmarks built on structured sources. To construct …
arXiv cs.CL TIER_1 English(EN) · Yike Guo · 2026-05-29 12:39

通过图约束路径选择扩展多跳训练数据

Endowing large language models with compositional reasoning over specialized documents requires multi-hop training data at scale, where such data rarely exists outside of curated benchmarks built on structured sources. To construct it directly from plain, unannotated text, existi…