English(EN) A Dataset of Robot-Patient and Doctor-Patient Medical Dialogues for Spoken Language Processing Tasks

新的医疗对话数据集对包括GPT-5 Mini和Claude Sonnet 4在内的LLM进行基准测试

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-27 04:00

研究人员推出MeDial-Speech，一个旨在训练和评估医疗咨询AI模型的新数据集。该数据集包含超过111小时的机器人-患者和医生-患者对话语音数据，涵盖四种特定健康状况。它还包括一个句子选择基准，用于测试三个领先的LLM：GPT-5 mini、DeepSeek-V3和Claude Sonnet 4。结果表明，Claude Sonnet 4在句子选择方面表现最佳，尽管所有测试的LLM在其预测中都表现出过度自信。 AI

影响该数据集和基准可以加速医疗对话AI系统的开发和评估，有可能改善患者护理和咨询效率。

排序理由该集群描述了一篇介绍用于评估特定领域LLM的数据集和基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

新的医疗对话数据集对包括GPT-5 Mini和Claude Sonnet 4在内的LLM进行基准测试

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Heriberto Cuayahuitl, Grace Jang · 2026-05-27 04:00

A Dataset of Robot-Patient and Doctor-Patient Medical Dialogues for Spoken Language Processing Tasks

arXiv:2605.26747v1 Announce Type: new Abstract: Large Language Models (LLMs) have brought huge improvements to Artificial Intelligence (AI), which can be applied to general-purpose tasks. However, their application to textual or spoken medical consultations is still an open resea…

报道来源 [1]

A Dataset of Robot-Patient and Doctor-Patient Medical Dialogues for Spoken Language Processing Tasks

相关实体

相关话题