PulseAugur
实时 20:49:04
English(EN) Is ProgramBench Impossible?

ProgramBench 编码基准因不可能的未记录测试而使前沿模型失败

一个名为 ProgramBench 的新编码基准旨在评估前沿人工智能模型,但因其可能无法解决而受到批评。该基准要求模型根据有限的文档重新实现程序并通过一套单元测试,其中一些可能涵盖未记录或晦涩的功能。这种设计可能导致模型因发现隐藏行为或后门而失败,而不是因为缺乏编码智能,这促使人们建议进行改进,例如下游测试和加权评分。 AI

影响 强调了人工智能评估方法中潜在的问题,表明需要更强大、更现实的测试框架。

排序理由 该集群讨论了一个新基准及其潜在缺陷,属于研究级别的人工智能新闻。

在 LessWrong (AI tag) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

ProgramBench 编码基准因不可能的未记录测试而使前沿模型失败

报道来源 [1]

  1. LessWrong (AI tag) TIER_1 English(EN) · frmsaul ·

    Is ProgramBench Impossible?

    <p><a href="https://programbench.com" rel="noreferrer"><span>ProgramBench</span></a><span> is a new coding benchmark that all frontier models spectacularly fail. We’ve been on a quest for “hard benchmarks” </span><a href="https://www.lesswrong.com/posts/3SywPAjGQWCtQFafb/you-re-g…