English(EN) PSEBench: A Controllable and Verifiable Benchmark for Evaluating LLMs in Patient Safety Event Triage

新基准PSEBench评估大型语言模型在患者安全分诊中的表现

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-06 04:00

研究人员开发了PSEBench，这是一个旨在评估大型语言模型（LLMs）在患者安全事件分诊这一关键任务中的新基准。该基准采用了一种新颖的基于策略的构建方法，使用“条款卡”将监管文本分解为可审计的决策规范。PSEBench包含 5,074 个基于明尼苏达州可报告不良健康事件的案例，旨在捕捉基于证据的推理、信息检索以及在模糊情况下的原则性弃权。对 15 个大型语言模型的初步评估显示了持续的能力趋势，并确定了在患者安全工作流程中应用大型语言模型的改进领域。 AI

影响为评估大型语言模型在高风险临床安全应用中的可靠性提供了一种标准化方法。

排序理由该集群包含一篇介绍用于评估大型语言模型的新基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Keqi Han, Ryan Young, Annabel Strauss, Lindsey Hughes, Katharine M. Nesbitt, Nicole Schueler, Che Ngufor, Carl Yang, Yuan Xue, Zhijun Yin · 2026-06-06 04:00

PSEBench：用于评估 LLM 在患者安全事件分诊中可控且可验证的基准测试

arXiv:2606.05463v1 Announce Type: new Abstract: Patient safety event triage, determining whether a clinical event is reportable under jurisdiction-specific policy, is a high-stakes task typically performed manually by patient safety experts. Although LLMs may support this workflo…

报道来源 [1]

PSEBench：用于评估 LLM 在患者安全事件分诊中可控且可验证的基准测试

相关实体

相关话题