PulseAugur
实时 11:30:13
实体 BenchmarkCards

BenchmarkCards

PulseAugur coverage of BenchmarkCards — every cluster mentioning BenchmarkCards across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_43936 ·

    论文:医疗LLM基准需要明确的假设文档

    一篇新论文提出,由于存在隐性假设,医疗LLM基准不足以预测实际性能。作者们引入了一个框架,将这些假设分为基于任务和基于结果的类别,并指出基于结果的假设需要超越典型基准测试的行为研究。为弥补这一不足,该论文建议使用“BenchmarkCards”来记录假设,并实施“分阶段评估”来系统地测试它们。