PulseAugur
实时 08:20:25
English(EN) Do No Harm? Hallucination and Actor-Level Abuse in Web-Deployed Medical Large Language Models

医疗LLM显示出显著的事实错误和政策违规

一项新研究发表在arXiv上,评估了6,233个网络部署的医疗大型语言模型(LLM),并对其中1,500个模型以及10个开源模型进行了抽样评估。研究发现,相当一部分模型存在事实不准确的问题,25-30%的模型准确性较低,超过一半的模型违反了操作阈值。此外,许多支持操作的模型缺乏足够的隐私披露,表明在安全和合规方面存在系统性差距。 AI

影响 凸显了医疗AI在安全和合规方面存在的关键问题,需要为患者护理提供更强的保障措施。

排序理由 该集群包含一篇学术论文,详细介绍了对医疗LLM的大规模评估。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

医疗LLM显示出显著的事实错误和政策违规

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Rahat Masood ·

    Do No Harm? Hallucination and Actor-Level Abuse in Web-Deployed Medical Large Language Models

    Medical large language models (LLMs), including custom medical GPTs (MedGPTs) and open-source models, are increasingly deployed on web platforms to provide clinical guidance. However, they pose risks of hallucination, policy noncompliance, and unsafe design. We conduct a large-sc…