研究人员开发了CalBrief,一个旨在评估大语言模型如何根据支持证据的强度和范围来校准科学结论的新基准。该基准由16个科学证据包和96个人类验证的结论组成,用于测试GPT-4o、Claude Sonnet和Gemini Flash等模型。研究结果表明,虽然结构化组织可以改善推理,但明确的强度校准策略通常过于保守,其中很大一部分保守性归因于将标签空间从二元分类扩展到四元分类。 AI
影响 该基准有望带来更可靠的AI研究助手,能够准确反映支持其结论的证据。
排序理由 该集群包含一篇详细介绍LLM新评估基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →