实体 SelfCodeAlign

SelfCodeAlign

PulseAugur coverage of SelfCodeAlign — every cluster mentioning SelfCodeAlign across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_117600 · Jun 30 · 04:00

用于代码生成的 LLM 对齐：预训练模型 vs. 微调模型

研究人员探讨了大型语言模型 (LLM) 对齐技术在代码生成任务中的有效性，研究了对齐应该从预训练的 LLM 还是微调的 LLM 开始。该研究在五个最先进的 LLM 上使用了两种无奖励对齐方法：直接偏好优化 (DPO) 和 BoNBoN。结果表明，对齐预训练模型比其预训练的对应模型在对齐版本中带来了更大的改进，尽管预训练模型总体上准确性较低。相反，对齐微调模型产生的性能提升较小，甚至出现性能下降。