研究人员探讨了大型语言模型 (LLM) 对齐技术在代码生成任务中的有效性,研究了对齐应该从预训练的 LLM 还是微调的 LLM 开始。该研究在五个最先进的 LLM 上使用了两种无奖励对齐方法:直接偏好优化 (DPO) 和 BoNBoN。结果表明,对齐预训练模型比其预训练的对应模型在对齐版本中带来了更大的改进,尽管预训练模型总体上准确性较低。相反,对齐微调模型产生的性能提升较小,甚至出现性能下降。 AI
影响 探讨了对齐 LLM 以用于代码生成的最佳策略,有可能提高 AI 生成代码的质量和可维护性。
排序理由 该集群包含一篇学术论文,详细介绍了关于 LLM 代码生成对齐的实证研究结果。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →