PulseAugur
实时 11:52:55
English(EN) On whether LLMs can abstain effectively and whether chain-of-thought can help, two recent papers seem at odds on the surface. COLING 2025 finds prompted CoT rai

关于大型语言模型弃权和思维链的冲突研究出现

两篇近期论文就大型语言模型能否有效弃权以及思维链提示是否能增强此能力提出了相互矛盾的发现。一项来自 COLING 2025 的研究表明,提示式思维链可以提高指令微调模型的弃权率。相反,来自 NeurIPS 2025AbstentionBench 论文指出,扩展推理预算会降低为推理而训练的模型的弃权率。 AI

影响 关于大型语言模型弃权的冲突研究凸显了模型控制和可靠性方面持续存在的挑战。

排序理由 该集群讨论了在会议上发表的两篇学术论文的发现,重点关注大型语言模型的能力。[lever_c_demoted from research: ic=1 ai=1.0]

在 Mastodon — fosstodon.org 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. Mastodon — fosstodon.org TIER_1 English(EN) · [email protected] ·

    关于大型语言模型能否有效弃权以及思维链能否提供帮助,两篇最新论文表面上似乎存在分歧。COLING 2025 发现提示 CoT 提

    On whether LLMs can abstain effectively and whether chain-of-thought can help, two recent papers seem at odds on the surface. COLING 2025 finds prompted CoT raises abstention on instruct models. AbstentionBench (NeurIPS 2025) finds extending the reasoning budget lowers it on a tr…