研究人员推出VERITAS,一个旨在克服评估大型语言模型(LLM)穷尽搜索能力悖论的新框架。这种悖论的产生是因为高熵任务的完整性验证对于人类来说无法创建真实答案,导致基准测试会惩罚超出人类标注者能力的模型。VERITAS利用计算不可约约束来生成可验证的、稀疏答案的搜索任务,这些任务在计算上等同于穷尽枚举,确保智能体必须真正遍历整个搜索空间。这种方法允许自动生成无限数量的具有完美真实答案和可控难度的测试用例,为评估和训练不确定性下的探索提供了稳健的方法。 AI
影响 为评估和训练LLM的探索能力提供了一种新颖的方法,解决了当前基准测试的一个关键限制。
排序理由 该集群包含一篇学术论文,介绍了一种用于评估LLM的新框架和方法论。[lever_c_demoted from research: ic=1 ai=1.0]
在 arXiv cs.IR (Information Retrieval) 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →