一篇新的arXiv论文揭示,大型语言模型在回答电子健康记录中的临床问题时的准确性,随着所需推理复杂度的增加而显著下降。研究人员开发了一种“跳数”(hop-count)分类法来衡量问题所需的推理步骤数,发现在Claude Sonnet、GPT-4o和GPT-5.4-2026-03-05等模型中,随着跳数的增加,准确性持续下降。这表明当前的Transformer架构在组合推理方面可能存在固有的局限性,对临床AI的部署构成了风险。 AI
影响 由于大型语言模型在复杂推理方面存在困难,临床AI的部署面临风险,需要根据问题复杂度对部署进行仔细分层。
排序理由 该集群包含一篇在arXiv上发表的学术论文,详细介绍了研究结果。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →