研究人员开发了PSEBench,这是一个旨在评估大型语言模型(LLMs)在患者安全事件分诊这一关键任务中的新基准。该基准采用了一种新颖的基于策略的构建方法,使用“条款卡”将监管文本分解为可审计的决策规范。PSEBench包含 5,074 个基于明尼苏达州可报告不良健康事件的案例,旨在捕捉基于证据的推理、信息检索以及在模糊情况下的原则性弃权。对 15 个大型语言模型的初步评估显示了持续的能力趋势,并确定了在患者安全工作流程中应用大型语言模型的改进领域。 AI
影响 为评估大型语言模型在高风险临床安全应用中的可靠性提供了一种标准化方法。
排序理由 该集群包含一篇介绍用于评估大型语言模型的新基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →