PulseAugur
实时 08:29:39
实体 PSEBench

PSEBench

PulseAugur coverage of PSEBench — every cluster mentioning PSEBench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_74382 ·

    新基准PSEBench评估大型语言模型在患者安全分诊中的表现

    研究人员开发了PSEBench,这是一个旨在评估大型语言模型(LLMs)在患者安全事件分诊这一关键任务中的新基准。该基准采用了一种新颖的基于策略的构建方法,使用“条款卡”将监管文本分解为可审计的决策规范。PSEBench包含 5,074 个基于明尼苏达州可报告不良健康事件的案例,旨在捕捉基于证据的推理、信息检索以及在模糊情况下的原则性弃权。对 15 个大型语言模型的初步评估显示了持续的能力趋势,并确定了在患者安全工作流程中应用大型语言…