一项新研究发表在arXiv上,评估了6,233个网络部署的医疗大型语言模型(LLM),并对其中1,500个模型以及10个开源模型进行了抽样评估。研究发现,相当一部分模型存在事实不准确的问题,25-30%的模型准确性较低,超过一半的模型违反了操作阈值。此外,许多支持操作的模型缺乏足够的隐私披露,表明在安全和合规方面存在系统性差距。 AI
影响 凸显了医疗AI在安全和合规方面存在的关键问题,需要为患者护理提供更强的保障措施。
排序理由 该集群包含一篇学术论文,详细介绍了对医疗LLM的大规模评估。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →