English(EN) CodeAlchemy: Synthetic Code Rewriting at Scale

CodeAlchemy 为 AI 训练生成超过 5000 亿个 token 的合成代码

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-10 04:00

研究人员开发了 CodeAlchemy，一个用于生成大规模合成代码数据以改进 AI 模型训练的框架。该系统采用了五种策略，包括代码重写、问答、开发者任务、对话交流和执行跟踪，生成了超过 5000 亿个 token 的合成代码和 3500 亿个推理 token。这个庞大的数据集旨在解决当前模型在理解真实世界代码任务方面的局限性，新的基准测试如 DevEval 和 TraceEval 突显了即使是前沿模型在语义理解方面也存在显著差距。 AI

影响这个庞大的合成数据集可以显著提高 AI 的代码生成能力和对复杂编程任务的理解。

排序理由这是一篇研究论文，详细介绍了一种新的合成数据生成方法及其在新基准测试上的表现。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Ankit Gupta, Aditya Prasad, Rameswar Panda · 2026-06-10 04:00

CodeAlchemy: Synthetic Code Rewriting at Scale

arXiv:2606.10087v1 Announce Type: new Abstract: Pre-training on raw code teaches syntax but provides sparse signal for diverse real-world task formats. While synthetic data has proven transformative for language models, code remains largely unexplored beyond limited quality impro…

报道来源 [1]

CodeAlchemy: Synthetic Code Rewriting at Scale

相关实体

相关话题