实体 AbstentionBench

AbstentionBench

PulseAugur coverage of AbstentionBench — every cluster mentioning AbstentionBench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

2

90 天内 2

发布 · 30天

0

90 天内 0

论文 · 30天

2

90 天内 2

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 2 条

TOOL · CL_55922 · May 28 · 06:49

关于大型语言模型弃权和思维链的冲突研究出现

两篇近期论文就大型语言模型能否有效弃权以及思维链提示是否能增强此能力提出了相互矛盾的发现。一项来自 COLING 2025 的研究表明，提示式思维链可以提高指令微调模型的弃权率。相反，来自 NeurIPS 2025 的 AbstentionBench 论文指出，扩展推理预算会降低为推理而训练的模型的弃权率。
RESEARCH · CL_46376 · May 24 · 00:06

新论文显示，大语言模型在规划和承认无知方面存在不足

两篇新论文评估了大语言模型的元认知能力，特别是它们的规划和弃权能力。TRIAGE 论文发现，大多数前沿和开源大语言模型在没有反馈的情况下，在规划问题解决序列和分配 token 预算的任务上表现不佳，而经过推理训练的模型表现不如标准模型。AbstentionBench 显示，当前的大语言模型难以识别不可回答的问题，并且推理微调会损害它们弃权的能力，因为强化学习方法缺乏直接的“我不知道”梯度。