English(EN) Do No Harm? Hallucination and Actor-Level Abuse in Web-Deployed Medical Large Language Models

医疗LLM显示出显著的事实错误和政策违规

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-20 00:57

一项新研究发表在arXiv上，评估了6,233个网络部署的医疗大型语言模型（LLM），并对其中1,500个模型以及10个开源模型进行了抽样评估。研究发现，相当一部分模型存在事实不准确的问题，25-30%的模型准确性较低，超过一半的模型违反了操作阈值。此外，许多支持操作的模型缺乏足够的隐私披露，表明在安全和合规方面存在系统性差距。 AI

影响凸显了医疗AI在安全和合规方面存在的关键问题，需要为患者护理提供更强的保障措施。

排序理由该集群包含一篇学术论文，详细介绍了对医疗LLM的大规模评估。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Rahat Masood · 2026-05-20 00:57

Do No Harm? Hallucination and Actor-Level Abuse in Web-Deployed Medical Large Language Models

Medical large language models (LLMs), including custom medical GPTs (MedGPTs) and open-source models, are increasingly deployed on web platforms to provide clinical guidance. However, they pose risks of hallucination, policy noncompliance, and unsafe design. We conduct a large-sc…

报道来源 [1]

Do No Harm? Hallucination and Actor-Level Abuse in Web-Deployed Medical Large Language Models

相关实体

相关话题