一篇新论文提出,由于存在隐性假设,医疗LLM基准不足以预测实际性能。作者们引入了一个框架,将这些假设分为基于任务和基于结果的类别,并指出基于结果的假设需要超越典型基准测试的行为研究。为弥补这一不足,该论文建议使用“BenchmarkCards”来记录假设,并实施“分阶段评估”来系统地测试它们。 AI
影响 提出了一种评估医疗领域LLM的新框架,认为在没有明确假设文档的情况下,当前的基准测试是不够的。
排序理由 该集群包含一篇提出LLM评估新框架和工件的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →