研究人员推出MeDial-Speech,一个旨在训练和评估医疗咨询AI模型的新数据集。该数据集包含超过111小时的机器人-患者和医生-患者对话语音数据,涵盖四种特定健康状况。它还包括一个句子选择基准,用于测试三个领先的LLM:GPT-5 mini、DeepSeek-V3和Claude Sonnet 4。结果表明,Claude Sonnet 4在句子选择方面表现最佳,尽管所有测试的LLM在其预测中都表现出过度自信。 AI
影响 该数据集和基准可以加速医疗对话AI系统的开发和评估,有可能改善患者护理和咨询效率。
排序理由 该集群描述了一篇介绍用于评估特定领域LLM的数据集和基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →