PulseAugur
实时 22:38:06
English(EN) MHGraphBench: Knowledge Graph-Grounded Benchmarking of Mental Health Knowledge in Large Language Models

新基准测试大模型在心理健康知识和推理能力

研究人员开发了MHGraphBench,一个旨在评估大模型对心理健康相关知识理解和应用能力的新基准。该基准使用源自PrimeKG的知识图谱,并包含实体识别、关系判断和推理等任务。初步实验表明,尽管领先的模型在基本实体识别方面表现良好,但在更复杂的关系预测和推理任务上仍有困难,这表明在知识的识别和应用之间存在差距。 AI

影响 引入了一个新的评估框架,用于评估大模型在关键的心理健康领域的能力,并突出了当前在推理和知识应用方面的局限性。

排序理由 该集群包含一篇介绍大模型评估新基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新基准测试大模型在心理健康知识和推理能力

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Zhijun Yin ·

    MHGraphBench: Knowledge Graph-Grounded Benchmarking of Mental Health Knowledge in Large Language Models

    Large language models (LLMs) are increasingly used in the mental health domain, yet it remains unclear how well they capture related biomedical knowledge and how reliably they apply it to clinically salient structured judgments. Here, we present a knowledge-graph (KG)-grounded be…