PulseAugur
实时 18:03:36
English(EN) Breaking the Evaluation Paradox: Evaluating High-Entropy Search with Computationally Irreducible Constraints

新的VERITAS框架解决了LLM评估悖论,实现了穷尽搜索

研究人员推出VERITAS,一个旨在克服评估大型语言模型(LLM)穷尽搜索能力悖论的新框架。这种悖论的产生是因为高熵任务的完整性验证对于人类来说无法创建真实答案,导致基准测试会惩罚超出人类标注者能力的模型。VERITAS利用计算不可约约束来生成可验证的、稀疏答案的搜索任务,这些任务在计算上等同于穷尽枚举,确保智能体必须真正遍历整个搜索空间。这种方法允许自动生成无限数量的具有完美真实答案和可控难度的测试用例,为评估和训练不确定性下的探索提供了稳健的方法。 AI

影响 为评估和训练LLM的探索能力提供了一种新颖的方法,解决了当前基准测试的一个关键限制。

排序理由 该集群包含一篇学术论文,介绍了一种用于评估LLM的新框架和方法论。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.IR (Information Retrieval) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的VERITAS框架解决了LLM评估悖论,实现了穷尽搜索

报道来源 [1]

  1. arXiv cs.IR (Information Retrieval) TIER_1 English(EN) · Ke Wang ·

    Breaking the Evaluation Paradox: Evaluating High-Entropy Search with Computationally Irreducible Constraints

    Evaluating the exhaustive search capabilities of large language models (LLMs) is plagued by a fundamental paradox: verifying completeness requires complete ground truth, yet high-entropy enumeration tasks make such ground truth impossible for humans to create. This causes benchma…