English(EN) Reward-Free Code Alignment from Pretrained or Fine-Tuned LLM: Unpacking the Trade-offs for Code Generation

用于代码生成的 LLM 对齐：预训练模型 vs. 微调模型

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

研究人员探讨了大型语言模型 (LLM) 对齐技术在代码生成任务中的有效性，研究了对齐应该从预训练的 LLM 还是微调的 LLM 开始。该研究在五个最先进的 LLM 上使用了两种无奖励对齐方法：直接偏好优化 (DPO) 和 BoNBoN。结果表明，对齐预训练模型比其预训练的对应模型在对齐版本中带来了更大的改进，尽管预训练模型总体上准确性较低。相反，对齐微调模型产生的性能提升较小，甚至出现性能下降。 AI

影响探讨了对齐 LLM 以用于代码生成的最佳策略，有可能提高 AI 生成代码的质量和可维护性。

排序理由该集群包含一篇学术论文，详细介绍了关于 LLM 代码生成对齐的实证研究结果。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Gias Uddin, Sanjeepan Sivapiran · 2026-06-30 04:00

预训练或微调LLM的无奖励代码对齐：解构代码生成的权衡

arXiv:2606.28998v1 Announce Type: cross Abstract: Large Language Model (LLM) alignment trains an LLM using preference data to produce outputs that better meet established quality standards. While LLM alignment techniques are studied for non-coding tasks, we know little about thei…

报道来源 [1]

预训练或微调LLM的无奖励代码对齐：解构代码生成的权衡

相关实体

相关话题