研究人员开发了T2D-Bench,一个旨在评估大型语言模型(LLM)在2型糖尿病管理方面的准确性和循证推理能力的新评估框架。该框架利用一个多层知识图谱,整合了临床指南和生活方式因素,以检查LLM输出是否符合证据要求。初步测试表明,当前的LLM,如GPT-4o-mini和GPT-4o,在相当大比例的案例中未能通过这些循证检查,凸显了此类严格评估方法对于确保可靠临床建议的必要性。 AI
影响 该基准测试有望推动开发更可靠、更循证的临床应用LLM,从而提高患者安全性。
排序理由 该集群包含一篇详细介绍LLM评估新基准的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
- ADA Standards of Care
- DrugBank
- GPT-4o
- GPT-4o-mini
- Large Language Models
- LLMs
- SIDER
- T2D-Bench
- Type 2 Diabetes
- UMLS
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →