PulseAugur
实时 10:15:54
实体 MedStreamBench

MedStreamBench

PulseAugur coverage of MedStreamBench — every cluster mentioning MedStreamBench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_123045 ·

    新基准MedStreamBench测试医疗视频AI的及时决策能力

    研究人员推出MedStreamBench,一个新颖的基准,旨在评估医疗视频理解模型做出及时和主动决策的能力,而不仅仅是准确预测。该基准包含22个医疗数据集和超过5000个跨四个时间设置的问答实例,包括用于触发临床警报的主动监控场景。MedStreamBench与传统基准的不同之处在于,它限制模型使用时间受限的证据,并支持流式评估,揭示了领先的视觉语言模型在离线识别和时间相关决策制定之间存在的显著性能差距。