PulseAugur
实时 11:32:47
English(EN) When Does Generating More Help? Disentangling Fixed-Source Synthesis from Source Expansion in Synthetic Data Scaling

新研究区分了合成数据扩展方法

一篇来自arXiv的新研究论文探讨了两种扩展合成数据生成的方法:源扩展(SE)和固定源合成(FSS)。该研究通过保持源材料和教师模型不变,同时改变生成预算来分离FSS。研究人员调整了一个扩展定律来适应FSS,并发现虽然SE和FSS在低预算下相当,但在高预算下,当添加更多源材料比从固定源生成更多响应更有效时,SE的表现优于FSS。研究结果表明,FSS是一个适合比较合成协议的有界扩展轴。 AI

影响 提供了一个理解和优化合成数据生成的框架,这对于训练大型AI模型至关重要。

排序理由 学术论文发布在arXiv上,详细介绍了一种新的研究方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

新研究区分了合成数据扩展方法

报道来源 [2]

  1. arXiv cs.CL TIER_1 English(EN) · Xu Guo, Jian Tong, Zhihui Lu, Qipeng Guo ·

    When Does Generating More Help? Disentangling Fixed-Source Synthesis from Source Expansion in Synthetic Data Scaling

    arXiv:2607.01727v1 Announce Type: new Abstract: Synthetic data can be scaled along two routes: Source Expansion (SE), which enlarges the source by adding seed materials or generators, and Fixed-Source Synthesis (FSS), which holds the source fixed and scales the generation budget.…

  2. arXiv cs.CL TIER_1 English(EN) · Qipeng Guo ·

    When Does Generating More Help? Disentangling Fixed-Source Synthesis from Source Expansion in Synthetic Data Scaling

    Synthetic data can be scaled along two routes: Source Expansion (SE), which enlarges the source by adding seed materials or generators, and Fixed-Source Synthesis (FSS), which holds the source fixed and scales the generation budget. Existing scaling studies typically expand the s…