PulseAugur
实时 11:46:22
实体 CalBrief

CalBrief

PulseAugur coverage of CalBrief — every cluster mentioning CalBrief across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_115621 ·

    新基准CalBrief测试LLM的证据校准科学简报能力

    研究人员开发了CalBrief,一个旨在评估大语言模型如何根据支持证据的强度和范围来校准科学结论的新基准。该基准由16个科学证据包和96个人类验证的结论组成,用于测试GPT-4o、Claude Sonnet和Gemini Flash等模型。研究结果表明,虽然结构化组织可以改善推理,但明确的强度校准策略通常过于保守,其中很大一部分保守性归因于将标签空间从二元分类扩展到四元分类。