一篇新发表在arXiv上的研究表明,用于提示大型语言模型的语言显著影响其在临床环境中的诊断推理和准确性。研究人员发现,在用英语提示时,五种评估模型中有四种模型的表现优于法语提示,英语在鉴别诊断、逻辑结构和内部有效性方面得分更高。只有一种模型o3在基于语言的性能上没有显著差异,这凸显了在医疗保健领域公平部署LLM时需要考虑语言和文化因素。 AI
影响 强调了基于语言的LLM临床决策支持可能存在的差异,影响了对人工智能医疗工具的公平获取。
排序理由 学术论文,详细介绍模型性能评估。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →