PulseAugur
实时 12:56:05
English(EN) A Dataset of Robot-Patient and Doctor-Patient Medical Dialogues for Spoken Language Processing Tasks

新的医疗对话数据集对包括GPT-5 Mini和Claude Sonnet 4在内的LLM进行基准测试

研究人员推出MeDial-Speech,一个旨在训练和评估医疗咨询AI模型的新数据集。该数据集包含超过111小时的机器人-患者和医生-患者对话语音数据,涵盖四种特定健康状况。它还包括一个句子选择基准,用于测试三个领先的LLM:GPT-5 mini、DeepSeek-V3和Claude Sonnet 4。结果表明,Claude Sonnet 4在句子选择方面表现最佳,尽管所有测试的LLM在其预测中都表现出过度自信。 AI

影响 该数据集和基准可以加速医疗对话AI系统的开发和评估,有可能改善患者护理和咨询效率。

排序理由 该集群描述了一篇介绍用于评估特定领域LLM的数据集和基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的医疗对话数据集对包括GPT-5 Mini和Claude Sonnet 4在内的LLM进行基准测试

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Heriberto Cuayahuitl, Grace Jang ·

    A Dataset of Robot-Patient and Doctor-Patient Medical Dialogues for Spoken Language Processing Tasks

    arXiv:2605.26747v1 Announce Type: new Abstract: Large Language Models (LLMs) have brought huge improvements to Artificial Intelligence (AI), which can be applied to general-purpose tasks. However, their application to textual or spoken medical consultations is still an open resea…