PulseAugur
实时 07:47:37
English(EN) Can We Trust LLMs for Mental Health Screening? Consistency, ASR Robustness, and Evidence Faithfulness

大型语言模型在心理健康筛查方面展现出潜力和不足

研究人员开发了一个基于代理的大型语言模型框架,用于大规模心理健康筛查,该框架使用策略引导的评估系统来确保在临床环境中的可信度和适应性。另一项独立研究评估了现有大型语言模型在心理健康筛查中的可靠性,测试了它们的一致性、对语音识别错误的鲁棒性以及对证据的忠实度。研究结果表明,虽然像 Phi-4Gemma-2-9B 这样的模型即使在语音识别不准确的情况下也能保持高一致性和预测有效性,但像 Llama-3.1-8B 这样的模型则更为脆弱。 AI

影响 大型语言模型在可扩展的心理健康筛查方面显示出潜力,但由于可靠性和对错误鲁棒性的差异,需要仔细验证。

排序理由 两篇学术论文,介绍了用于心理健康应用的大型语言模型的创新研究和评估。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

大型语言模型在心理健康筛查方面展现出潜力和不足

报道来源 [2]

  1. Hugging Face Daily Papers TIER_1 English(EN) ·

    An Agentic LLM-Based Framework for Population-Scale Mental Health Screening

    Mental health disorders affect millions worldwide, and healthcare systems are increasingly overwhelmed by the volume of clinical data generated from electronic records, telemedicine platforms, and population-level screening programs. At the same time, the emergence of novel AI-ba…

  2. arXiv cs.CL TIER_1 English(EN) · Saturnino Luz ·

    Can We Trust LLMs for Mental Health Screening? Consistency, ASR Robustness, and Evidence Faithfulness

    LLMs can estimate Hospital Anxiety and Depression Scale (HADS) scores from speech in a zero-shot manner, but clinical deployment requires reliability across three dimensions: intra-model consistency, ASR robustness, and evidence faithfulness. We evaluate three LLMs (Phi-4, Gemma-…