English(EN) Health-ORSC-Bench: A Benchmark for Measuring Over-Refusal and Safety Completion in Health Context

新基准揭示大型语言模型在医疗保健领域难以平衡安全性和有用性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-29 04:00

引入了一个名为Health-ORSC-Bench的新基准，用于评估大型语言模型在医疗保健场景中的安全对齐情况。该基准通过关注“安全完成”（旨在提供有益的高层指导而不越界至有害领域）来解决过度拒绝和不安全合规的问题。对包括GPT-5和Claude 4在内的30个大型语言模型的评估显示，经过安全优化的模型经常拒绝相当一部分良性查询，而领域特定的模型可能会为了实用性而牺牲安全性。研究表明，与较小的模型或基于MoE的模型相比，更大的前沿模型往往表现出“安全悲观主义”和更高的过度拒绝率，这凸显了在平衡拒绝和合规性方面持续存在的挑战。 AI

影响该基准将通过提供评估安全性和有用性的标准，推动更细致、更可靠的医疗人工智能助手的开发。

排序理由该集群是关于一篇介绍用于医疗保健领域大型语言模型安全基准的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Zhihao Zhang, Liting Huang, Guanghao Wu, Preslav Nakov, Heng Ji, Usman Naseem · 2026-06-29 04:00

Health-ORSC-Bench: A Benchmark for Measuring Over-Refusal and Safety Completion in Health Context

arXiv:2601.17642v2 Announce Type: replace Abstract: Safety alignment in Large Language Models is critical for healthcare; however, reliance on binary refusal boundaries often results in over-refusal of benign queries or unsafe compliance with harmful ones. While existing benchmar…

报道来源 [1]

Health-ORSC-Bench: A Benchmark for Measuring Over-Refusal and Safety Completion in Health Context

相关实体

相关话题