实体 MeDial-Speech

MeDial-Speech

PulseAugur coverage of MeDial-Speech — every cluster mentioning MeDial-Speech across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_53657 · May 27 · 04:00

新的医疗对话数据集对包括GPT-5 Mini和Claude Sonnet 4在内的LLM进行基准测试

研究人员推出MeDial-Speech，一个旨在训练和评估医疗咨询AI模型的新数据集。该数据集包含超过111小时的机器人-患者和医生-患者对话语音数据，涵盖四种特定健康状况。它还包括一个句子选择基准，用于测试三个领先的LLM：GPT-5 mini、DeepSeek-V3和Claude Sonnet 4。结果表明，Claude Sonnet 4在句子选择方面表现最佳，尽管所有测试的LLM在其预测中都表现出过度自信。