一项新研究评估了大型语言模型(LLM)在预测精神病住院风险方面的可靠性。研究人员发现,在患者资料中包含医学上不重要的细节会显著增加四个经审计的LLM的预测风险评分和输出变异性:Gemini 2.5 Flash、LLaMa 3.3 70b、Claude Sonnet 4.6和GPT-4o mini。研究强调,基于LLM的精神病评估对非临床信息敏感,凸显了在临床部署前进行系统性评估的必要性。 AI
影响 揭示了LLM临床风险评估中潜在的不可靠性,敦促在精神病学等敏感领域部署前需谨慎。
排序理由 学术论文,详细介绍了在特定领域评估LLM可靠性的新方法。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →