实体 LingxiDiag-16K

LingxiDiag-16K

PulseAugur coverage of LingxiDiag-16K — every cluster mentioning LingxiDiag-16K across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_108442 · Jun 11 · 00:00

大语言模型精神诊断基准测试揭示复杂病例的准确性差距

一个名为LingxiDiagBench的新基准测试已被开发出来，用于评估大语言模型（LLMs）在中文精神科咨询和诊断方面的能力。该基准测试包含一个包含16,000个合成对话的数据集LingxiDiag-16K，旨在模拟12个ICD-10类别下的真实临床分布。实验表明，虽然大语言模型在区分抑郁症和焦虑症等二元分类任务上表现良好，但在共病识别和12路鉴别诊断等更复杂的任务上，其准确性会显著下降。研究还发现，动态多轮咨询的效果可能不如静态评…