研究人员推出SWE-IF,这是一个新的评估框架,旨在超越功能正确性来评估大型语言模型(LLM)遵循代码指令的能力。该框架包含一个包含30个可验证代码指令的分类法和确定性验证器,旨在捕捉反映人类对干净、保留意图和正确代码偏好的“氛围检查”。对31个LLM的评估显示,指令遵循是一个关键的区分因素,功能正确性和指令遵循的综合得分与人类偏好最相关。 AI
影响 这个新的评估框架可能促使LLM生成更符合人类偏好且更易于维护的代码,从而提高开发者的生产力。
排序理由 该集群包含一篇介绍LLM新评估框架的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →