English(EN) LingxiDiagBench: A Multi-Agent Framework for Benchmarking LLMs in Chinese Psychiatric Consultation and Diagnosis

大语言模型精神诊断基准测试揭示复杂病例的准确性差距

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-11 00:00

一个名为LingxiDiagBench的新基准测试已被开发出来，用于评估大语言模型（LLMs）在中文精神科咨询和诊断方面的能力。该基准测试包含一个包含16,000个合成对话的数据集LingxiDiag-16K，旨在模拟12个ICD-10类别下的真实临床分布。实验表明，虽然大语言模型在区分抑郁症和焦虑症等二元分类任务上表现良好，但在共病识别和12路鉴别诊断等更复杂的任务上，其准确性会显著下降。研究还发现，动态多轮咨询的效果可能不如静态评估，这表明大语言模型的信息收集策略会影响其诊断推理能力。 AI

影响强调了大语言模型在复杂心理健康状况诊断推理方面的局限性，指出了未来研究和发展的方向。

排序理由该集群描述了一篇介绍大语言模型基准数据集和评估框架的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

Hugging Face Daily Papers TIER_1 English(EN) · 2026-06-11 00:00

LingxiDiagBench: A Multi-Agent Framework for Benchmarking LLMs in Chinese Psychiatric Consultation and Diagnosis

A large-scale multi-agent benchmark for evaluating LLMs in Chinese psychiatric diagnosis is introduced, highlighting challenges in dynamic consultation and the gap between consultation quality and diagnostic accuracy.

报道来源 [1]

LingxiDiagBench: A Multi-Agent Framework for Benchmarking LLMs in Chinese Psychiatric Consultation and Diagnosis

相关实体

相关话题