一个名为LingxiDiagBench的新基准测试已被开发出来,用于评估大语言模型(LLMs)在中文精神科咨询和诊断方面的能力。该基准测试包含一个包含16,000个合成对话的数据集LingxiDiag-16K,旨在模拟12个ICD-10类别下的真实临床分布。实验表明,虽然大语言模型在区分抑郁症和焦虑症等二元分类任务上表现良好,但在共病识别和12路鉴别诊断等更复杂的任务上,其准确性会显著下降。研究还发现,动态多轮咨询的效果可能不如静态评估,这表明大语言模型的信息收集策略会影响其诊断推理能力。 AI
影响 强调了大语言模型在复杂心理健康状况诊断推理方面的局限性,指出了未来研究和发展的方向。
排序理由 该集群描述了一篇介绍大语言模型基准数据集和评估框架的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
在 Hugging Face Daily Papers 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →