研究人员开发了MHGraphBench,一个旨在评估大模型对心理健康相关知识理解和应用能力的新基准。该基准使用源自PrimeKG的知识图谱,并包含实体识别、关系判断和推理等任务。初步实验表明,尽管领先的模型在基本实体识别方面表现良好,但在更复杂的关系预测和推理任务上仍有困难,这表明在知识的识别和应用之间存在差距。 AI
影响 引入了一个新的评估框架,用于评估大模型在关键的心理健康领域的能力,并突出了当前在推理和知识应用方面的局限性。
排序理由 该集群包含一篇介绍大模型评估新基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →