PulseAugur
实时 10:35:41
实体 Ming Zhong

Ming Zhong

PulseAugur coverage of Ming Zhong — every cluster mentioning Ming Zhong across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_77305 ·

    新的SWE-IF框架评估LLM在代码指令遵循方面的能力

    研究人员推出SWE-IF,这是一个新的评估框架,旨在超越功能正确性来评估大型语言模型(LLM)遵循代码指令的能力。该框架包含一个包含30个可验证代码指令的分类法和确定性验证器,旨在捕捉反映人类对干净、保留意图和正确代码偏好的“氛围检查”。对31个LLM的评估显示,指令遵循是一个关键的区分因素,功能正确性和指令遵循的综合得分与人类偏好最相关。