研究人员发布了CIDR,一个新发布的、大规模的工业源代码数据集,旨在推动软件工程研究。该数据集包含来自12个合作组织的2,440个代码库,共计3.73亿行代码,涵盖138种编程语言。CIDR的独特性在于它包含了专有的生产代码库,经过严格的质量筛选和匿名化处理,并用于代码智能、模型预训练和智能体评估等研究。 AI
影响 使得代码智能领域的新研究以及代码语言模型和AI智能体的开发成为可能。
排序理由 该集群描述了一个用于软件工程研究的新数据集的发布,包括其规模、来源和预期应用等细节。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →